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序言 


很 高 兴 看 到 Postgres 中 国 用 户 会 〈 以 下 简称 : 
PG 用 户 会 ) 核心 组 成 员 谭 峰 和 张 文 升 的 新 书 ， 书 名 
《PostgreSQL 实 战 》 可 以 说 是 对 本 书 最 好 的 解读 。 

多 少 次 ， 我 也 试看 总 结 经 验 ， 列 出 目录 想 要 将 目 己 
所 学 所 悟 整理 成 书 ， 与 读者 进行 分 享 ， 但 最 终 还 是 
没 能 坚持 。 感 谢 两 位 作者 为 中 国 PostgreSQL 技 术 推 
广 所 作出 的 贡献 ， 谨 代表 PG 用 户 会 同 广 大 开源 技术 
爱好 者 推荐 此 书 。 


谭 峰 是 PG 用 户 会 最 早 的 成 员 之 一 ，2011 年 我 
们 在 一 次 小 聚会 中 ， 与 另外 6 位 志同道合 的 小 伙伴 
决定 一 同 成 六 PG 用 户 会 以 促进 中 国 PostgreSQL 的 应 
用 及 有 发展 。 同 年 ， 在 暨南 大 学 我 们 举行 了 第 一 
届 “Postgres 中 国 用 户 大 会 〈 大 象 会 ) ”。 


张 文 升 兽 经 是 我 的 同僚， 在 共事 的 短 短 2 年 
里 ， 我 们 东 征 西 伐 ， 带 着 对 PostgreSQL 的 热爱 与 执 
着 ， 将 PostgreSQL 部 署 到 了 民航 、 人 金融 、 制 造 、 交 
通 等 行业 ， 多 少 个 不 虐 之 夜 依然 历历 在 日 。 


目 2011 年 PostgreSQL 中 国有 用户 会 成 并 以 来 ， 我 
们 持续 推动 PostgreSQL 在 中 国 的 应 用 ， 并 促进 与 全 
球 PostgreSQL 社 区 的 互动 。7 年 来 我 们 邀请 了 众多 
































业界 大 拿 来 到 中 国 进行 技术 分 持 ， 他 们 包括 : 


社区 核心 Leader: Bruce Momjian、Oleg 
Bartunov、Simon Riggs、 Magnus Hagander 


Postgres-XC Leader: 铃木 幸 一 
Postgres-XL Leader: Mason Sharp 
PGPool] Leader: 石井 达 夫 
PGStrom Leader: 海外 浩 平 .………. 


同时 ， 束 职 于 阿里 、 腾 讯 、 潮 高 、 探 探 、 平 安 
科技 等 企业 的 多 位 中 国 PostgreSQL 专 家 也 积极 参加 
到 海外 的 社区 大 会 并 进行 主题 分 享 ， 己 经 开始 形成 
全 球 交 流 态 势 。 我 们 都 有 一 个 共同 的 名 字 : PGer， 
我 们 是 一 群 随时 愿意 与 你 进行 PostgreSQL 经 验 分 享 
的 志愿 者 ， 我 们 爱 大 象 ， 我 们 爱 PostgreSQL 。 


回 到 本 书 ， 本 书 基 于 最 新 的 PostgreSQL 10 进 行 
编写 ， 重 点 在 于 通过 实际 操作 为 读者 全 方位 解读 
PostgreSQL 的 强大 能 力 。 从 安装 配置 、 连 接 使 用 、 
数据 管理 、 体 系 架 构 ， 到 NoSQL 操 作 、 人 性 能 优化 、 
集群 部 晋 、 分 布 式 、 分 片 、 地 理 信 息 ， 面 面 俱 到 。 


如 果 你 是 一 位 PostgreSQL 的 初学 者 ， 建 议 你 可 














以 先 参考 其 他 入 门类 PostgreSQL 书籍， 夯实 基础 ; 
在 工作 过 程 中 ， 按 企业 及 业务 的 需求 ， 再 参考 本 书 
各 个 章节 来 解决 实际 问题 ， 本 书 中 的 实际 操作 演示 
将 大 大 缩短 参考 官方 文档 进行 摸索 的 时 间 。 当 然 在 
两 位 作者 的 精心 编排 下 ， 本 书 所 规划 的 学 习 路 线 ， 
也 正 适 合 有 一 定 PostgreSQL 基 础 的 人 自行 学 习 及 提 
高 ， 为 日 后 的 数据 库 管 理工 作 做 好 准备 。 


本 书 绝对 是 一 本 值得 存放 于 吴 劳 的 PostgreSQL 
参考 书 ， 特 别 是 性 能 分 析 、 人 集群、 分 斤 、 地 理 信 息 
等 局 技术 含量 的 章 方 ， 可 以 作为 日 党 工作 的 有 效 参 
考 。 


























最 后 ， 在 此 祝愿 本 书 读者 开卷 有 蔓 ， 也 期 符 看 
到 更 多 PostgreSQL 作 品 在 中 国 面 世 ，PostgreSQL 的 
发 展 离 不 开 每 一 位 PGer 的 页 献 。 


中 国 开 源 软 件 推进 联盟 Postgres 分 会 会 
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Postgres 中 国 用 户 会 2015-2018 届 主席 
萧 少 联 


2018 年 4 月 25 日 


也。 


0 


PostgreSQL 拥 有 近 三 十 年 的 历史 ， 是 目前 最 先 
进 的 开源 数据 库 ，PostgreSQL 上 有 具备 丰富 的 企业 级 特 
性 ， 尽 管 在 欧美 、 日 本 使 用 非 间 广泛 ， 但 在 国内 并 
没有 得 到 广泛 使 用 ， 产 生 这 种 情形 的 原因 是 多 样 
的 ， 其 中 与 PostgreSQL 中 文 资料 匮乏 有 较 大 关系 ， 
目前 市 场 上 PostgreSQL 中 文书 籍 非常 少 。 


笔者 从 2010 年 开始 从 事 PostgreSQL DBA 工 作 ， 
在 PostgreSQL 数 据 库 运 维 工 程 中 积累 了 一 些 经 验 ， 
因此 想 系统 编写 一 本 PostgreSQL 书籍， 一 方面 总 结 
目 己 在 PostgreSQL 数 据 库 运 维 方面 的 经 验 ， 另 一 方 
面 希望 对 PostgreSQL 从 业者 有 所 帮助 ， 同 时 希望 给 
PostgreSQL 在 国内 的 发 展 页 献 一 份 力 量 ， 本 书 的 男 
一 位 作者 张 文 升 拥 有 丰 宇 的 PostgreSQL 运 维 经 验 ， 
目前 就 职 于 探 探 科技 任 首席 PostgreSQL DBA， 他 的 
加 入 极 大 地 丰富 了 此 书 的 内 容 。 


近 几 年 PostgreSQL 在 国内 得 到 较 快 的 发 展 ， 平 
安 科 技 、 去 哪儿 网 、 探 探 科 技 、 斯 凯 网 络 等 公司 都 
在 逐步 使 用 PostgreSQL， 目 前 阿里 云 、 腾 讯 云 、 华 
为 云 等 主流 云 服务 提供 商 也 提供 了 基于 PostgreSQL 
数据 库 的 云 服 务 ， 相 信 PostgreSQL 在 国内 将 有 更 广 
阔 的 发 展 。 














本 书 主要 内 容 


本 书 系 统 介绍 PostgreSQL 的 丰富 特性 ， 以 及 生 
产 实践 运 维 中 的 技巧 ， 全 书 分 为 基础 篇 、 核 心 篇 、 
进 阶 遍 。 基 础 遍 包 括 第 1 一 4 草 ， 主 要 介绍 
PostgreSQL 基 础 知识 ， 例 如 安装 与 配置 、 客 户 并 工 
具 、 数 据 类 型 、SQL 局 级 特性 等 ， 为 读者 阅读 核心 
扁 和 进 阶 篇 做 好 准备 ， 核 心 篇 包括 第 5~~9 章 ， 主 要 
介绍 PostgreSQL 核 心 内 容 ， 例 如 体系 结构 、 并 行 查 
询 、 事 务 与 并 发 控制 、 分 区 表 等 ， 进 阶 篇 包括 第 10 
一 18 章 ， 主 要 介绍 PostgreSQL 进 阶 内 容 ， 相 比 前 两 
扁 进 阶 篇 的 难度 有 一 定 程 度 增 加 ， 例 如 性 能 优化 、 
物理 复制 、 人 逻辑 复制 、 备 份 与 恢复 、 高 可 用 、 版 本 
升级 、 扩 展 模 块 、Oracle 数 据 库 迁 移 PostgreSQL 实 
战 、PostGIS 等 。 本 书 18 章 主要 内 容 如 下 。 


第 1 章 : 介绍 PostgreSQL 起 源 、 安 装 、 数 据 库 
实例 创建 、 数 据 库 配置 、 数 据 库 的 启动 和 停止 等 。 


第 2 章 ， 介绍 psql 命 令 行 客户 端 工具 的 使 用 和 特 
性 ， 例 如 psql 元 命令 、psql 导 入 导出 数据 、 使 用 psql 
执行 脚本 、psql 的 亮点 功能 等 。 


第 3 章 : 介绍 PostgreSQL 各 种 数据 类 型 ， 包 括 
字符 类 型 、 时 间 / 日 期 类 型 、 布 尔 类 型 、 网 络 地 址 类 
型 、 数 组 类 型 、 范 围 类 型 、jsomrjsonb 类 型 等 ， 同 时 























2 操作 符 、 数 据 类 型 转 


第 4 章 : 主要 介绍 PostgreSQL 支 持 的 一 些 高 级 
SQL 特 性 ， 例 如 WITH 查 询 、 批 量 插 入 、 
RETURNING 返 回 DML 修 改 的 数据 、UPSERT、 数 
据 抽 样 、 聚 合 函数 、 窗 口 函数 等 。 


第 5 章 : 人 简单 介绍 PostgreSQL 的 逻辑 结构 和 物 
理 结构 ， 以 及 PostgreSQL 的 守护 进程 、 服 务 进程 和 
辅助 进程 。 

第 6 章 : 介绍 PostgreSQL 并 行 查 询 相 关 配 置 与 
应 用 ， 以 及 多 表 关 联 中 并 行 的 使 用 。 


第 7 章 : 介绍 事务 的 基本 概念 、 性 质 和 事务 陋 
离 级 别 ， 以 及 PostgreSQL 多 版 本 并 发 控制 的 原理 和 
机 制 | 。 


第 8 章 : 介绍 传统 分 区 表 和 内 置 分 区 表 的 部 
普 、 分 区 维护 和 性 能 测试 。 

第 9 章 : 介绍 PostgreSQL 的 NoSQL 特 性 ， 以 及 
PostgreSQL 人 全文 检 索 。 


第 10 章 ， 简单 介绍 了 服务 器 硬件 、 操 作 系 统 配 
置 对 性 能 的 影响 ， 介 绍 了 一 些 常用 的 Linux 性 能 监 














控 工 具 ， 并 痢 重 介绍 了 对 性 能 影响 较 大 的 几 个 方 
面 ， 以 及 性 能 优化 方案 。 


第 11 章 : 着 重 介 绍 PostgreSQL 内置 的 测试 工具 
pgbench， 以 及 如 何 使 用 pgbench 的 内 置 脚本 和 自 定 
义 脚本 进行 基准 测试 。 


第 12 章 : 主要 介绍 PostgreSQL 物 理 复制 和 逻辑 
复制 ， 并 结合 笔者 在 数据 库 维护 过 程 中 的 实践 经 验 
分 享 了 三 个 典型 的 流 复 制 维护 生产 案例 。 


第 13 章 : 重点 介绍 PostgreSQL 物 理 备 份 、 增 量 
备份 ， 同 时 演示 了 数据 库 恢复 的 几 种 场景 。 


第 14 草 : 介绍 两 种 高 可 用 方案 ， 一 种 是 基于 
Pgpool-I 和 有 异步 流 复制 的 高 可 用 方案 ， 另 一 种 是 基 
于 Keepalived 和 异步 流 复 制 的 高 可 用 方案 。 


第 15 章 : 介绍 PostgreSQL 版 本 命名 规则 、 支 撑 
策略 、 历 史 版 本 演进 ， 介 绍 了 小 版 本 升级 ， 最 后 重 
点 介绍 了 大 版 本 升级 的 三 种 方式 。 


第 16 章 : 主要 介绍 一 些 常见 的 外 部 扩展 ， 例 如 
file fdw、 pg_stat_statements、auto_explain、 
postgres_fdw， 并 重点 介绍 Citus 外 部 扩展 。 














第 17 章 : 从 实际 案例 出 发 ， 分 享 了 一 个 Oracle 


数据 库 迁 移 到 PostgreSQL 数 据 库 的 实际 项 目 。 


第 18 音 : 简单 介绍 PostGIS 部 署 、 几 何 对 象 的 
输 和 入、 输出、 存储 、 运 算 ， 最 后 介绍 了 PostGIS 的 
一 个 典型 应 用 场景 : 圈 人 与 地 理 围 栏 。 


本 书 特点 


本 书 不 是 PostgreSQL 入 门 书籍 ， 不 会 介绍 
PostgreSQL 每 个 基础 知识 点 ， 本 书 从 PostgreSQL 生 
产 实践 运 维 出 发 ， 对 PostgreSQL 重 点 内 容 进 行 详细 
讲解 并 给 出 演示 示例 ， 是 一 本 PostgreSQL 数 据 库 运 
维 实 战 书籍 。 


本 书 基于 PostgreSQL 10 编 写 ， 书 中 涵盖 了 大 量 
PostgreSQL 10 重 量 级 新 特性 ， 例 如 内 置 分 区 表 、 志 
辑 复制 、 并 行 租 询 增强 、 同 步 复制 优选 提交 等 ， 通 
过 阅读 此 书 ， 读 者 能 够 学 习 a 到 PostgreSQL 10 重 量 级 
新 特性 。 


本 书 共 18 章 ， 如 果 你 对 PostgreSQL 有 一 定 的 运 
维 经验 ， 完 全 可 以 不 按 章节 顺序 ， 而 是 选择 比较 关 
注 的 章节 进行 阅读 。 如 果 你 完全 没有 PostgreSQL 数 
据 库 基础 ， 建 议 先 通过 其 他 资料 大 致 学 握 
PostgreSQL 基 础 知识 ， 再 来 阅读 本 书 ， 相 信 你 在 此 
书 的 阅读 过 程 中 能 有 收获 。 

















读者 对 象 


本 书 适 合 有 一 定 PostgreSQL 数 据 库 基础 的 人 员 
阅读 ， 特 别 适 合 以 下 读者 : 


* PostgreSQL 初 、 中 级 DBA: 初 、 中 级 
PostgreSQL DBA 通 过 阅读 此 书 能 够 提升 PostgteSQL 
运 维 经 验 。 


非 PostereSQL DBA: 有 Oracle、MySQL 或 其 
他 关系 型 数据 库 经 验 的 DBA， 并 且 对 PostereSQL 有 
一 定 程度 的 了 解 ， 通 过 阅读 此 书 很 容易 上 手 
PostereSQL。 


" 开发 人 员 : 以 PostgreSQL 为 后 端 数 据 库 的 开 
发 者 ， 通 过 阅读 本 书 能 够 了 解 PostgreSQL 的 丰富 特 
性 ， 提 升 PostereSQL 数 据 库 应 用 水 平 。 


` 云 数据 库 从 业 人 员 : 私有 云 、 公 有 云 数据 库 
从 业 人 员 通 过 阅读 此 书 能 够 更 深入 了 解 PostgreSQL 
特性 ， 并 提升 PostgreSQL 数 据 库 运 维 能力 。 
甚 误 和 文 持 


由 于 作者 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 
出 现 错误 ， 欢 迎 广 大 读者 批评 指正 ， 读 者 可 将 书 中 


的 错误 或 疑问 发 送 到 francs.tan@postgres.cn， 我 将 
尽量 及 时 给 出 回复 ， 最 后 ， 衷 心地 和 希望 此 书 能 够 给 
大 家 币 来 帮助 。 
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宝 吐 的 意见 。 


感谢 肃 少 隐 、 周 正中 、 李 海 狂 、 周 谋 伟 、 赵 振 
平 、 唐 成 、 绢 煜 玮 先生 推荐 此 书 。 


最 后 感谢 我 的 麦子， 计划 编写 此 书 时 妻子 刚 怀 
孕 不 人 ， 当 我 把 编写 此 书 的 想法 和 她 沟通 时 她 肾 不 
犹 殉 地 文 持 我 ， 写 作 过 程 中 占用 了 较 多 的 家 庭 时 
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第 1 章 ” 安 猴 与 配置 基础 


本 章 介 绍 PostgreSQL 起 源 、 安 装 部 普 、 基 本 参 
数 配 置 、 服 务 管理 等 方面 的 内 容 。 


1.1 初 识 PostgreSQL 


PostgreSQL 是 由 PostgreSQL 社 区 全 球 志愿 者 开 
发 团队 开发 的 开源 对 象 -关系 型 数据 库 。 它 源 于 UC 
Berkeley 大 学 1977 年 的 Ingres 计 划 ， 这 个 项 目 是 由 著 
名 的 数据 库 科 学 家 Michael Stonebraker (2015 年 图 
灵 奖 获得 者 ) 领导 的 。 在 1994 年 ， 两 个 UC Berkeley 
大 学 的 研究 生 Andrew Yu 和 Jolly Chen 增 加 了 一 个 
SQL 语 言 解释 器 来 丛 代 早先 的 基于 Ingres 有 的 QUEL 系 
统 ， 建 这 了 Postgres95。 为 了 反映 数据 库 的 新 SQL 碍 
询 语 言 特性 ，Postgres95 在 1996 年 重 命 名 为 
PostgreSQL， 并 第 一 次 发 行 了 以 PostgreSQL 命 名 的 
6.0 版 本 ， 在 2005 年 ，PostgreSQL 发行 了 以 原生 方式 
运行 在 Windows 系 统 下 的 8.0 版 本 。 随 着 2010 年 
PostgreSQL 9.0 的 发 行 ，PostgreSQL 进 入 了 黄金 发 展 
阶段 ， 目 前 ，PostgreSQL 最 新 的 稳定 版 是 
PostgreSQL 10。 


PostgreSQL 是 目前 可 免费 获得 的 最 高 级 的 开源 
数据 库 。 它 非常 稳定 可 靠 ， 有 很 多 前 沿 的 技术 特 
性 ， 并 且 性 能 日 越 ， 在 数据 完整 性 和 正确 性 方面 说 
得 了 展 好 的 声誉 。 目 前 主流 的 云 服务 提供 障 如 亚 马 
还 云 、 微 软 云 、 腾 讯 云 、 阿 里 云 、 百 度 云 都 提供 了 
PostgreSQL 的 RDS 服 务 。 

















名 提示 ”PostegreSQL 开 发 者 把 它 拼 读 为 "Post- 
Gres-Q-L" (发 音 : `[/postgts kju: 1/]，`) ， 更 多 人 
愿意 称 PostereSQL 为 Posteres。 有 趣 的 是 由 于 绕 口 的 
名 字 ， 常 有 人 读 错 它 ， 下 面 的 网 址 有 一 个 
PostgreSQL 社 区 提供 的 发 音 文 
件 : http://www.posteresgl.org/files/posteresql.mp3 


1.1.1 PostgreSQL 的 特点 


PostgreSQL 几乎 文 持 多 种 操作 系统 ， 包 括 各 种 
Linux 发 行 版 及 多 种 UNIX、 类 UNIX 系 统 以 及 
Windows 系 统 ， 例 如 AIX、BSD、HP-UX、SGI 
IRIX、Mac OS X、Solaris、Tru64。 它 有 丰富 的 编 
程 接 口 ， 如 C、C++、Go、Java、Perl、Python、 
Ruby、Tdl 和 开放 数据 库 连 接 (ODBC) 的 编程 接 
口 。 


文 持 广泛 的 数据 类 型 ， 数 组 、json、jsonb 及 几 
何 类 型 ， 还 可 以 使 用 SQL 命令 CREATE TYPE 创 建 
目 定义 类 型 。 


文 持 大 部 分 的 SQL 标准 ， 可 以 文 持 复杂 SQL 人 奉 
询 、 支 持 SQL 子 查询 、Window Function， 有 非常 丰 
宇 的 统计 函数 和 统计 语法 文 持 : 文 持 主键 、 外 键 、 
触发 器 、 视 图 、 物 化 视图 ， 还 可 以 用 多 种 语言 来 编 








写 存 储 过 程 ， 例 如 C、Java、python、R 语 言 等 。 


支持 并 行 计算 和 基于 MVCC 的 多 版 本 并 发 控 
制 ， 文 持 同 步 、 半 同步 、 异 步 的 流 复 制 ， 文 持 馆 辑 
复制 和 订阅 ，Hot Standby， 文 持 多 种 数据 源 的 外 部 
表 (Foreign data wrappers) ， 可 以 将 其 他 数据 源 当 
作 目 己 的 数据 表 使 用 ， 例 如 Oracle、MYySQL、 
Informix、SQLite、MS SQL Server 等 。 








1.1.2 ”许可 


PostgreSQL 使 用 PostgreSQL License 声 明 ， 它 是 
类 似 于 BSD 或 MIT 的 软件 授权 许可 。 由 于 这 个 经 
OSI 认 证 的 版 权 不 限制 PostgreSQL 在 商业 环境 和 有 
版 权 的 应 用 程序 中 使 用 ， 因 此 被 公认 为 是 灵活 和 对 
了 商业 应 用 友好 的 。 加 上 有 多 个 公司 的 文 持 和 源 代 码 
版 权 归 公共 所 有 ， 因 此 PostgreSQL 广 泛 流行 于 在 自 
己 的 产品 里 艇 入 数据 库 的 厂商 中 ， 因 为 广 障 不 用 担 
心 费 用 、 骨 入 软件 的 版 权 及 版 权 条 于 的 改变 。 


完整 的 许可 请 参 
考 : https://www.postgresql.org/about/licence/ 。 











1.1.3 邮件 列表 和 讨论 区 


PostgreSQL 社 区 有 各 类 邮件 列表 组 ， 天 注 这 些 
邮件 列表 可 以 获得 最 新 的 技术 资料 ， 和 使 用 
PostgreSQL 的 用 户 增 进 交 流 ， 也 可 以 提交 目 己 的 问 
题 和 想法 。PostgreSQL 社 区 还 专门 为 中 国 的 用 户 定 
制 了 pgsql-zh-general 中 文 邮件 组 。 


PostgreSQL 用 户 可 通过 下 面 的 网 址 订 
讽 : https://www.postgresql].org/list 。 


1.2 ”安装 PostgreSQL 


PostgreSQL 数 据 库 几 乎 文 持 市 面 上 可 见 的 所 有 
操作 系统 ， 并 支持 32 位 和 64 位 架构 。 本 书 主要 基于 
64 位 的 CentOS 6 和 PostgreSQL 10 讲 解 ， 其 他 平台 和 
版 本 请 参考 官方 文档 。 


安装 PostgreSQL 有 多 种 方法 ， 例 如 通过 yum 源 
安装 、 下 载 官 方 或 第 三 方 商业 公司 提供 的 二 进 制 包 
安装 、 通 过 源码 编译 安装 。 





1.2.1 通过 yum 源 安装 


通过 yum 源 安 儿 是 最 便捷 的 方式 。 这 需要 你 的 
数据 库 服务 占 能 够 连接 互联 网 ， 或 者 能 够 连接 到 内 
部 网 络 的 yum 源 服务 器 。 通 常数 据 库 服务 器 都 是 与 
公 网 物理 隅 离 的 ， 所 以 常见 的 情况 是 连接 到 内 部 网 
络 的 yum 源 服务 玲 进 行 安装 ， 这 属于 运 维 和 安全 性 
相关 的 话题 ， 这 里 不 展开 讨论 了 ， 我 们 以 从 官方 
yum 源 安 容 为 例 进行 讲解 。 


1. 安 装 PostgreSQL 的 repository RPM 








访问 PostgreSQL 官方 主 
页 https://www.postgresql.org/download 的 下 载 区 选 


择 你 的 服务 占 操 作 系 统 ， 由 于 我 们 使 用 CentOS， 所 
以 这 里 我 们 选择 “Binary packages” 中 的 “Red Hat 
family Linux”; 进入 链接 页 而 之 后 ，Select version 
选择 “10”，Select platform 选 择 “CentOS 6”，Select 
architecture 选 择 “x86_64”; 选择 完成 后 页 面 会 动态 
输出 安 闭 命令， 执行 命令 安装 PostgreSQL 的 
repository RPM: 


[root@pghost1 ~]$ yum install 
https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-6 


执行 结束 后 ， 在 /etc/yum.repos.d 目 录 中 可 以 看 
到 名 称 为 pgdg-10-centos.repo 的 源 配 置 文 件 。 


2. 安 装 PostgreSQL 
安装 完 PostgreSQL 约 repository RPM 后 ， 通 过 


yum 的 search 命 令 可 以 看 到 有 很 多 postgresql10 的 
包 : 


[root@pghost1 ~]$ yum search postgresql10 


其 中 : 


* posteresql10-debuginfo.x86_64: postgresql10 的 
调试 信息 ， 如 果 需 要 进行 DEBUG， 可 以 安装 它 ， 


生产 环境 中 一 般 不 需要 安装 ; 


:bostgresql10.x86_64: 这 个 包 只 包含 
PostgreSQL 的 client 端 程序 和 库 文件 ， 不 会 安装 数据 
库 服 务 器 ， 

* posteresql10-contrib.x86_64: PostgreSQL 的 附 
加 模块 ， 包 括 第 用 的 扩展 等 ; 

* bostgfesqdl10-devel.x86_064: PosteerSQL 的 C 和 
C+ 十 头 文 件 ， 如 果 开 发 ibpq 程 序 ， 它 是 必需 的 ，; 

* postgresql10-docs.x86_64: 文档 ; 


Postgtesql10-SetvVet.X80_04: PostgreSQL server 
端 程 序 ， 作 为 数据 库 服 务 器 ， 它 是 最 核心 的 包 ; 


作为 专 有 的 数据 库 服 务 需 来 说 ， 通 名 安装 
server 和 contrib 两 个 包 束 足够 了 ，client 包 会 随 它们 
一 起 被 安装 。 通 过 如 下 命令 安装 它们 : 


[root@pghost1 ~]$ yum install postgresql10-server postgresql10 


人 @@ 提示 如果 使 用 脚本 安装 时 ， 可 以 使 用 


yum 的 “-y ”参数 进行 安装 ， 这 样 可 以 避免 安装 途 
中 出 现 确认 安装 的 提示 。 


[root@pghost1 ~]$ yum install -y postgresql10-server postgreso 


如 果 网 络 状 况 较 好 ， 大 约 几 秒 钟 就 可 以 完成 安 
闭 。 使 用 官方 yum 源 安装 的 位 置 在 /usr/pgsql-10 晶 
录 ， 可 执行 文件 位 于 /usr/pgsql-10/bin 目 录 ， 并 日 会 
目 动 创建 一 个 postgres 账 户 ， 它 的 home 目 录 
在 /varvlib/pgsql。 








3. 凶 载 通 过 yum 源 安装 的 PostgreSQL 


可 执行 如 下 命令 ， 奏 看 已 经 安装 的 PostgreSQL 
软件 包 : 


[root@pghost1 ~]$ rpm -qa | grep postgresqgl 
postgresql10-10.0-1PGDG.rhel6.x86_64 
postgresql10-1ibs-10.0-1PGDG.rhel6.x86_64 
postgresql10-contrib-10.0-1PGDG.rhel6.x86_64 
postgresql10-server-10.0-1PGDG.rhel6.x86_64 


可 以 使 用 yum remove 命 令 逐 个 凶 载 ， 最 简单 粗 
至 的 办 法 是 凶 载 libs 包 即 可 ， 因 为 其 他 几 个 包 都 会 
依赖 它 ， 凶 载 libs 包 会 将 其 他 包 一 并 邮 载 : 


yum remove postgresql10-1ibs-10.0-1PGDG.rhel6.x86_64 


由 于 安装 的 时 候 已 经 将 PostgreSQL 作 为 服务 安 


靖 ， 所 以 还 需要 删除 服务 管理 脚本 : 


[root@pghost1 ~]$ rm -f /etc/init.d/postgresql-10 


和 二 源码 编译 安装 


用 襄 
通过 源码 编译 安 狂 PostgreSQL 和 编译 其 他 的 开 
源 工具 一 样 人 简单 方便 。 


1. 下 载 源码 
在 PostgreSQL 官 方 主 


页 https://www.postgresqgl.org/ftp/latest 下 载 区 选择 所 
需 格 式 的 源 代 码 包 下 载 : 


[root@pghost1 ~]$ wget https://ftp.postgresql.org/pub/source/v 


下 载 之 后 解压 : 


[root@pghost1 ~]$ tar -xvf postgresql-10.0.tar.gz 


2. 运 行 configure 程 序 配 置 编 详 选 项 
运行 configure 程 序 之 前 ， 需 要 先 准 备 好 编译 环 


境 和 安装 必要 的 包 : 


[root@pghost1 ~]$ yum groupinstall "Development tools" 
[root@pghost1 ~]$ yum install -y bison flex readline-devel z1i 


在 源 代码 目录 中 运行 configure--help 命 令 查 看 支 
持 的 配置 编译 选项 : 


[root@pghost1 ~]$ cd postgresql-10.0 
[root@pghost1 ~]$ ./configure --help | less 


PostgreSQL 文 持 的 编译 选项 众多 ， 第 用 的 编 详 
选项 有 : 


-ptefix=PREFIX: 指定 安 少 目录 ， 上 默认 的 安 
装 有 目录 为 “ /ust/local/pgsql” : 


* --includeditr=DIR: 指定 C 和 C++ 的 头 文件 目 
录 ， 默 认 的 安装 目录 为 “PREFIX/include”。 


“ --with-pgpott=PORTNUM: 指定 初始 化 数据 
目录 时 的 默认 端口 ， 这 个 值 可 以 在 安装 之 后 进行 修 
改 (需要 重启 数据 库 ) ， 修 改 它 只 在 自行 制作 RPM 
包 时 有 用 ， 其 他 时 候 意 义 并 不 大 。 


. -with-blocksize=BLOCKSIZE: 指定 数据 文 


件 的 块 大 小 ， 黑 认 的 是 8KB， 如 果 在 OLAP 场 景 下 可 
以 适当 增加 这 个 值 到 32kB， 以 提高 OLAP 的 性 能 ， 
但 在 OLTP 场 景 下 建议 使 用 8kB 默 认 值 。 


 --with-segsize 二 SEGSIZE: 指定 单个 数据 文件 
的 大 小 ， 默 认 是 1GB。 


 --wWith-wal-blocksize=BLOCKSIZE: 指定 WAL 
文件 的 块 大 小 ， 默 认 是 8kB。 


 --with-wal-segsize 二 SEGSIZE: 指定 单个 WAL 
文件 的 大 小 ， 默 认 是 16MB。 


由 于 “--with-xxx-size” 这 4 个 参数 都 只 能 在 编译 
的 时 候 指 定 ， 所 以 在 修改 它们 之 前 ， 请 提前 做 好 规 
划 和 严格 的 测试 ， 否 则 后 期 想 再 做 调整 ， 只 能 将 数 
据 导 出 重新 导入 ， 如 果 数 据 量 很 大 会 令 人 抓 狂 。 


运行 configure 配 置 编 译 选 项 如 下 所 示 : 





[root@pghost1 postgresql-10.0]$ ./configure --prefix=/opt/pg1c6 
checking build system type... x86_64-pc-linux-gnu 
checking host System type... x86_64-pc-linux-gnu 


checking for bison... /usr/bin/bison 
configure: using bison (GNU Bison) 2.4.1 
checking for flex... /usr/bin/flex 
configure: using flex 2.5.35 


configure: using CPPFLAGS= -D_GNU_SOURCE 
configure: using LDFLAGS= -Wl1,--as-needed 


configure: creating ./config.status 


config.status: linking src/include/port/linux.h to src/include 
config.status: linking src/makefiles/Makefile.1linux to src/Mak 


在 运行 configure 程 序 的 过 程 中 ， 如 果 过 到 类 
似 “configure: error: readline library not found” 的 错 
误 ， 说 明 缺 少 所 需 的 包 或 开发 包 ， 通 过 yum 进 行 安 
装 即 可 。 


3. 编 译 安 装 


在 Linux 中 ， PostgreSQL 的 网 详 和 安装 使 用 
GNU make 程 序 ， 编 译 使 用 gmake 命 令 ， 安 安 灾 使 用 
gmake install 命 令 。 如 果 希 望 在 编译 和 安装 时 ， 

次 性 将 文档 及 附加 模块 全 部 进行 编译 和 安 冯 ， 本 
使 用 gmake world 命 令 和 gmake install-world 命 令 。 对 
于 已 经 安装 的 数据 库 ， 再 单独 对 文档 和 附加 模块 进 
行 编 详 和 安 猴 也 是 可 以 的 ， 但 仍然 推荐 使 用 市 有 
world 的 编译 和 安 冯 命令 一 次 做 完 这些 事 情 ， 这 样 
可 以 保证 网 络 中 所 有 数据 库 软 件 的 一 致 性 ， 也 避免 
给 后 期 维护 工作 读 来 麻烦 。 


执行 gmake 或 gmake world 程 序 进 行 编译 ， 如 下 
所 未: 





[root@pghost1 ~]$ gmake 


如 果 使 用 gmake 进 行 编译 ， 当 看 到 最 后 一 行 的 
输出 为 “All of PostgreSQL successfully made.Ready 
to install.” 说 明 已 经 编译 成 功 。 


如 果 使 用 gmake world 进 行 编译 ， 当 看 到 最 后 一 
行 的 输出 为 “PostgreSQL，contrib，and 
documentation successfully made.Ready to install.” 说 


明 已 经 编 详 成 功 。 


执行 gmake install 或 gmake install-world 程 序 进 
行 安装 ， 如 下 所 示 : 


[root@pghost1 ~]$ gmake install 


如 果 使 用 gmake install 进 行 安 装 ， 当 看 到 最 后 
一 行 的 输出 为 “PostgreSQL installation complete.” 说 
明 已 经 成 功 安装 。 

如 果 使 用 gmake install-world 进 行 安 装 ， 当 看 到 
最 后 一 行 的 输出 为 "PostgreSQL ，contrib，and 
documentation installation complete.” 说 明 已 经 安装 成 


pa 
查看 安装 的 PostgreSQL 厂 本 的 命令 如 下 所 示 : 


[root@pghost1 ~]# /opt/pg1i0/bin/postgres --version 


postgres (PostgreSQL) 10.0 


1.2.3 ”设置 一 个 软 链 接 





有 时 候 我 们 为 了 方便 工作 ， 会 自己 写 一 些 shell 
或 Python 脚本 处 理 一 些 定时 任务 ， 经 第 会 通过 类 
似 /opVpg9.x 这 样 的 全 路 径 调 用 一 些 工 具 ， 使 用 环境 
变量 也 会 有 一 些 其 他 的 问题 存在 ， 如 何 尽 可 能 地 避 
免 这 种 麻烦 ?很 简单 。 


创建 一 个 /opt/pgsql 的 软 链接 指 问 当 前 版 本 即 
可 ， 命 令 如 下 上 所 示 : 





[root@pghost1 opt]1$ ln -s /opt/pg10 /opt/pgsql 

[root@pghost1 ~]$ 11 /opt/ 

drwxr-xr-x 6 root root 4096 Oct 11 14:32 pg96 
drwxr-xr-x 6 root root 4096 Oct 13 17:43 pg10 
lrwxrwxrwx 1 root root 10 Oct 13 11:25 pgsql -> /opt/ 


当 进行 了 版 本 变更 之 后 ， 不 需要 调整 大 量 的 肢 
本 ， 只 需要 修改 这 个 软 链接 即 可 ， 在 下 文中 我 们 都 
全 使 用 下 





1.3 客户 站 程序 和 服务 郁 程 序 


经 过 上 面 的 安装 步 又， 已 经 成 功 安装 了 
PostgreSQL 数 据 库 : 


[postgres@pghost1 ~]$ tree -L 1 /opt/pgsql/ 
/opt/pgsql/ 
bin 
| 一 include 
| 一 Lib 
-一 share 
4 directories, © files 


share 目 录 存 放 着 PostgreSQL 的 文档 、man、 示 

例文 件 以 及 一 些 扩 展 ，include 目 录 是 PostgreSQL 的 
C、C++ 的 头 文件 ，bin 目 录 束 是 PostgreSQL 的 应 用 
程序 了 。PostgreSQL 本 刁 是 一 个 CS 架构 的 程序 ， 
这 些 应 用 程序 可 以 分 为 两 类 : 客户 端 程 序 和 服务 器 
程序 ， 本 草 先 介绍 这 些 应 用 程序 的 功能 ， 并 讲解 其 
中 比较 基础 的 一 部 分 ， 其 他 的 会 在 后 续 章 市 详细 讲 
解 。 


1.3.1 客户 端 程序 


客户 章程 序 也 可 分 为 几 大 类 ， 下 面 分 别 介 绍 。 


1 封装 SQL 命令 的 客户 端 程序 
clusterdb 


clusterdb 是 SQL CLUSTER 命令 的 一 个 封装 。 
PostgreSQL 是 堆 表 存储 的 ，clusterdb 通 过 索引 对 数 
据 库 中 基于 堆 表 的 物理 文件 重新 排序 ， 它 在 一 定 场 
景 下 可 以 节省 磁盘 访问 ， 加 快 得 询 速度 。 


举例 如 下 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/clusterdb -h pghost1 -p 1 


reindexdb 


reindexdb 是 SQL REINDEX 命 令 的 一 个 封装 。 
在 索引 物理 文件 发 生 损坏 或 案 引 脱 胀 等 情况 发 生 
时 ， 可 以 使 用 reindexdb 命 令 对 指定 的 表 或 者 数据 库 
重建 索引 并 且 删 除 旧 的 索引 。 


举例 如 下 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/reindexdb -e -h pghost1 - 


vacuumdb 


vacuumdb 是 PostgreSQL 数 据 库 独 有 的 
VACUUM、VACUUM FREEZE 和 VACUUM 
FULL，VACUUM ANALYZE 这 几 个 SQL 命令 的 封 
装 。VACUUM 系 列 命令 的 主要 职员 是 对 数据 的 物 
理 文 件 等 的 垃圾 回收 ， 是 PostgreSQL 中 非常 重要 的 


一 系列 命令 。 


举例 如 下 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/vacuumdb -h pghost1 -p 19 


vacuumlo 


vacuumlo 用 来 清理 数据 库 中 未 引用 的 大 对 象 。 
举例 如 下 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/vacuumlo -h pghost1 -p 19 


createdb 和 dropdb 


它们 分 别 是 SQL 命令 CREATE DATABAS 和 
DROP DATABASE 的 封装 。 


例如 在 名 为 pghost1 的 主机 ， 端 口 为 1921 的 实例 


中 创建 一 个 名 为 newdb 的 数据 库 ， 并 且 加 上 注释 ， 
命令 如 下 所 示 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/createdb -h pghost1 -p 19 


删除 名 为 newdb 的 数据 库 的 命令 如 下 所 示 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/dropdb -h pghost1 -p 1921 


createuser 和 dropuser 


它们 分 别 是 SQL 命令 CREATE USER 和 DROP 
USER 的 封装 。 可 以 通过 帮助 查看 它们 的 参数 说 
明 。 


例如 创建 一 个 名 为 newuser 的 非 超级 用 户 ， 
newuser 继 承 目 pg_monitor 系 统 角 色 ， 只 能 有 1 个 连 
接 ， 没 有 创建 数据 库 的 权限 ， 没有 创建 用 户 的 权 
限 ， 并 且 立 即 给 它 设置 密码 ， 命 令 如 下 所 示 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/createuser -h pghost1 -p 
Enter password for new role: 

Enter it again: 

CREATE ROLE newuser PASSWORD 'md518b2c3ec6fb3de0Qe33f5612ed399& 


是 否 超级 用 户 、 是 否 允 许 创 建 数据 库 、 是 人 否 允 


许 创 建 用 户 这 三 个 权限 可 以 使 用 --interactive 人 参数 提 
供 交 互 界 面 ， 使 用 更 简单 ， 举 例如 下 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/createuser -h pghost1 -p 
Enter password for new role: 

Enter it again: 

Shall the new role be a superuser? (y/n) n 

Shall the new role be allowed to create databases? (y/n) n 
Shall the new role be allowed to create more new roles? (y/n) 
CREATE ROLE newuser PASSWORD 'md545c93e6e78f597d46a41cfb08dea5 


删除 名 为 newuser 的 用 户 的 命令 如 下 所 示 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/dropuser -h pghost1 -p 19 





2. 备 份 与 恢复 的 客户 器 程序 


pg_basebackup 取 得 一 个 正在 运行 中 的 
PostgreSQL 实 例 的 基础 备份 。 


pg_dump 和 pg_dumpall 都 是 以 数据 库 转 储 方式 
进行 备份 的 工具 。 


pg_restore 用 来 从 pg_dump 命 令 创 建 的 非 文本 格 
式 的 备份 中 恢复 数据 。 


这 部 分 内 容 我 们 在 第 13 章 中 详细 讲解 。 


3. 其 他 客户 闯 程 序 


ecpg 是 用 于 C 程 序 的 PostgreSQL 仍 入 式 SQL 预 
处 理 器 。 它 将 SQL 调用 和 谷 换 为 特殊 函数 调用 ， 把 融 
有 岁入 式 SQL 语 句 的 C 程 序 转换 为 普通 C 代 码 。 输 出 
文件 可 以 被 任何 C 编 译 占 工具 人 处理 。 


oid2name 解 析 一 个 PostgreSQL 数 据 目 录 中 的 
OID 和 文件 结 点 ， 在 文件 系统 章节 会 详细 讲解 它 。 


pgbench 是 运行 基准 测试 的 工具 ， 平 常 我 们 
可 以 用 它 模 拟 简单 的 压力 测试 。 


. pg_config 获 取 当 前 安装 的 PostgreSQL 应 用 程 
序 的 配置 参数 。 


* PosteteSQL 包装 了 pg _isteady 工 具 用 来 检测 数 
据 库 服务 器 是 否 已 经 允许 接受 连接 。 


. bg_tfeceivexlog 可 以 从 一 个 运行 中 的 实例 获取 
事 务 日 过 的 元 O 


pg_tecvlogical 控 制 逻 辑 解 码 复 制 楷 以 及 来 目 
这 种 复制 槽 的 流 数 据 。 


psql 是 连接 PostereSQL 数 据 库 的 客户 端 命令 
行 工 具 ， 是 使 用 频率 非常 高 的 工具 ， 在 客户 端 工具 


一 章 会 专门 讲解 它 的 使 用 。 使 用 psql 客 户 端 工具 连 
接 数 据 库 的 命令 如 下 所 示 : 


[postgres@pghost2 ~]$ /opt/pgsql/bin/psql -h pghost1 -p 1921 nr 
psql (10.0) 

Type "help" for help. 

mydb=# 


其 中 的 参数 合 义 如 下 : 


` -h 参 数 指定 需要 连接 的 主机 。 


: -p 参 数 指定 数据 库 实例 的 端口 。 


. -d 参 数 指定 连接 哪 一 个 数据 库 ， 黑 认 的 是 和 
连接 所 使 用 的 用 户 的 用 户 名 同名 的 数据 库 。 


连接 到 数据 库 之 后 ， 残 进入 PostgreSQL 的 shell 
界面 ， 如 采 是 用 数据 库 超 级 用 户 连接 ， 提 示 符 由 数 
据 库 名 称 和 “=#" 组 成 ， 如 果 是 普通 的 数据 库 用 户 ， 
提示 符 则 由 数据 库 名 称 和 “=>” 组 成 。 


使 用 ^\gq” 或 CTRL+D 退 出 ， 命 令 如 下 所 示 : 


[postgres@pghost2 ~]$ /opt/pgsql/bin/psql -h pghost1 -p 1921 nr 
psql (10.0) 

Type "help" for help. 

mydb=# Nd 

[postgres@pghost2 ~]$ 


psq] 是 非常 强大 的 客户 端 连接 工具 ， 功 能 
在 客户 端 工 具 一 章 会 对 psql 做 详细 讲解 。 


已 


富 
1.3.2 ”服务 器 程序 


服务 占 程 序 包 括 : 
` initdb 用 来 创建 新 的 数据 库 目 录 。 
pg_atchivecleanup 是 清理 PostereSQL WAL 归 


“ Pg_controldata 显 示 数 据 库 服务 器 的 控制 
当 服 


档 文 件 的 工具 。 
息 ， 例 如 目录 版 本 、 预 写 日 志和 检查 点 的 信息 。 
“ pg_ctl 是 初始 人 化、 启动、 停止 、 控 制 数据 库 


中 位 自 、 
忆 Mo 


| 


及 务 器 的 工具 。 


.bg_ftesetwal 可 以 清除 预 写 日 志 并 且 有 选择 地 
重 置 存储 在 pg_control 文 件 中 的 一 些 控 证 
务 器 由 于 控制 文件 损坏 ，pg_resetwal 可 以 作为 最 后 


的 手段 。 
` pg_rfewind 是 在 master、slave 角 色 发 生 切 换 
时 ， 将 原 master 通 过 同步 模式 恢复 ， 避 免 重 做 基础 


备份 的 工具 。 
. pg_test_fsync 可 以 通 Ug 测试 ， 了 
解 系统 使 用 哪 一 种 预 写 日 志 的 同步 方法 
(wal_sync_method ) 最 快 ， 还 可 以 在 发 生 LI/O 问 题 
时 提供 诊断 信息 。 


pg_test_timing 是 一 种 度量 系统 计时 开销 以 及 
确认 系统 时 间 绝 不 会 回 退 的 工具 。 


` pg_upgrtade 是 PostereSQL 的 升级 工具 ， 在 版 
本 升级 的 齐 刷 会 详细 讲解 。 


. pg_waldump 用 来 将 预 写 日 志 解 析 为 可 读 的 格 


posteres 是 PostgreSQL 的 服务 器 程序 。 


* postmaster 可 以 从 bin 目 录 中 看 到 ， 是 指向 
posteres 服 务 器 程序 的 一 个 软 链接 。 


1.4 创建 数据 库 实 例 


在 PostgreSQL 中 一 个 数据 库 实 例 和 一 组 使 用 相 
同 配置 文件 和 监听 端口 的 数据 库 集 关联 ， 它 由 数据 
目录 组 成 ， 数 据 目录 中 包含 了 所 有 的 数据 文件 和 配 
置 文件 。 一 人 台数 据 库 服务 器 可 以 管理 多 个 数据 库 实 车 实 
例 ，PostgreSQL 通 过 数据 目录 的 位 置 和 这 个 数据 集 
合 实例 的 端口 号 引用 它 。 


1.4.1 创建 操作 系统 用 户 


在 创建 数据 库 实 例 之 前 要 做 的 第 一 件 事 是 先 创 
娃 一 个 独立 的 操作 系统 用 户 ， 也 可 以 称 为 本 地 用 
户 。 创 建 这 个 账号 的 目的 是 为 了 防止 因为 应 用 软件 
的 BUG 被 攻击 者 利用 ， 对 系统 造成 破坏 。 它 拥有 该 
数据 库 实 例 管理 的 所 有 数据 ， 是 这 个 数据 库 实 例 的 
超级 用 户 。 你 可 以 使 用 你 喜欢 的 用 户 名 作为 这 个 数 
据 库 实例 超级 用 户 ， 例 如 pger 等 ， 但 通常 我 们 使 用 
postgres 作 为 这 个 操作 系 统 超级 用 户 的 用 户 名 ， 这 
个 用 户 将 被 用 来 对 数据 库 实例 进行 start、stop、 
restart 探 作 。 如 果 使 用 yum 安 装 ， 且 操作 系统 中 不 存 
在 postgres 本 地 用 户 ， 安 疙 程序 会 自动 创建 名 为 
postgres 的 操作 系统 用 户 和 名 为 postgres 的 数据 库 超 
级 用 户 ， 尽 管 如 此 ， 仍 然 建议 在 yum 安 装 之 前 预先 























手动 创建 postgres 用 户 。 


当 一 个 黑客 利用 一 个 软件 的 BUG 进 入 一 台 计 算 
机 时 ， 他 束 获 得 了 这 个 软件 运行 所 使 用 的 用 户 账号 
的 权限 。 目 前 我 们 不 知道 PostgreSQL 是 人 耕 有 这 样 的 
BUG， 我 们 坚持 使 用 非 管 理 员 账号 运行 PostgreSQL 
的 目的 束 是 为 了 减少 (万 一 ) 黑客 利用 在 
PostgreSQL 发现 的 BUG 对 系统 造成 的 可 能 损害 。 


创建 系统 用 户 组 和 用 户 的 命令 如 下 所 示 : 














[root@pghost1 ~]$ groupadd -g 1000 postgres 

[root@pghost1 ~]$ useradd -g 1000 -u 1000 postgres 
[root@pghost1 ~]$ id postgres 

uid=1000(postgres) gid=1000(postgres) groups=1000(postgres) 


注意 事项 : 


1) 出 于 安全 考虑 ， 这 个 操作 系统 用 户 不 能 是 
root 或 具有 操作 系统 管理 权限 的 账号 ， 例 如 拥有 
sudo 权 限 的 用 户 。 


2) 如 果 是 部 阔 集 群 ， 建 议 配置 NTP 服 务 ， 统 
一 集群 中 每 个 节点 的 操作 系统 用 户 的 ud 和 gid， 如 
果 集 群 中 某 些 节点 的 数据 库 操 作 系 统 用 户 的 uid 和 
gid 与 其 他 节点 不 一 致 ， 可 以 通过 groupmod 命 令 和 
usermod 命 令 进 行 修改 ， 例 如 : 














[root@pghost1 ~]$ groupmod -g 1000 postgres 
[root@pghost1 ~]$ usermod -u 1000 -g 1000 postgres 


1.4.2 ”创建 数据 目录 


接 下 来 ， 给 我 们 的 数据 一 个 安 刁 立 命 之 所 ， 也 
就 是 在 磁盘 上 初始 化 一 个 数据 的 存储 区 域 ， 在 SQL 
标准 中 称 为 目录 集 徐 ， 通 各 我 们 也 口语 化 地 称 它 为 
数据 目录 。 它 用 来 存放 数据 文件 和 数据 库 实例 的 配 
置 文件 ， 可 以 把 这 个 目录 创建 到 任何 你 认为 合适 的 
位 置 。 作 为 数据 库 专 有 服务 器 ， 一 般 部 会 有 一 个 或 
多 个 分 区 来 存储 数据 ， 通 利 我 们 把 数据 目录 放 在 这 
样 的 分 区 中 。 


有 的 时 候 我 们 可 能 会 遇 到 多 实例 并 存 的 情况 ， 
为 了 区 分 不 同 版 本 的 数据 ， 我 们 通 弟 会 建立 形 
如 /pgdata/9.x/xxx_data 的 目录 作为 数据 库 实例 的 数 
据 目 录 ， 其 中 9.x 或 10 为 大 版 本 号 ，xxx_data 中 的 
xxXx 为 业务 线 名 称 ， 这 样 在 进行 大 版 本 升级 或 多 版 
本 并 存 、 多 业务 线 数据 并 存 的 环境 下 ， 目 录 条 理 更 
清晰 ， 同 时 可 以 减少 出 错 的 可 能 。 作 为 例子 ， 这 里 
我 们 不 考虑 多 实例 并 存 的 情况 ， 创 建 /pgdata/10/data 
目录 作为 数据 目录 ， 在 data 的 同 级 目录 创建 
backups、scripts、archive_wals 目 录 ， 这 几 个 目录 的 
作用 后 续 章 节 再 详 述 。 创 建 目录 的 命令 如 下 所 示 : 


























[root@pghost1 ~]$ mkdir -p /pgdata/10/{data,backups,scripts,ar 


将 数据 目录 的 属 主 修改 为 我 们 创建 的 操作 系统 
用 户 ， 并 且 修 改 数据 目录 的 权限 为 0700。 修 改 目 录 
权限 这 一 步 其 实 并 不 需要 ， 因 为 initdb 会 回收 除 
PostgreSQL 用 户 之 外 所 有 用 户 的 访问 权限 。 但 我 们 
应 该 明确 知道 数据 目录 包含 所 有 存储 在 数据 库 里 的 
数据 ， 保 护 这 个 目录 不 受 未 授权 的 访问 非常 重要 。 
修改 权限 的 命令 如 下 所 示 : 


[root@pghost1 ~]$ chown -R postgres.postgres /pgdata/10 
[root@pghost1 ~]$ chmod ©0700 /pgdata/10/data 


1.4.3 ”初始 化 数据 目录 





实例 化 数据 目录 使 用 initdb 工 具 。initdb 工 具 将 
创建 一 个 新 的 数据 库 目 录 〈 这 个 目录 包括 存放 数据 
库 数 据 的 目录 ) ， 创 建 tetmplate1 和 postgres 数 据 库 ， 
初始 化 该 数据 库 实例 的 默认 区 域 和 字符 集 编 码 。 
initdb 命 令 的 语法 如 下 所 示 : 








[postgres@pghost1 ~]$ /opt/pgsql/bin/initdb --help 
initdb initializes a PostgreSQL database cluster. 
Usage: 
initdb [OPTION]... [DATADIR] 
Options: 
-A, --auth=METHOD 为 本 地 用 户 指定 pg_hba .conf 文 件 中 的 1 





trust、password 等 ， 为 了 安装 方便 ，! 

是 除非 你 信任 数据 库 实例 所 在 服务 器 上 的 

--auth-host=METHOD 指定 通过 TCP/IP 连 接 的 本 地 用 户 在 pg_h 
--auth-local=METHOD 指定 通过 UNIX Socket 连 接 的 本 地 用 户 1 

认证 方法 ; 

[-D，--pgdata=]DATADIR ”将 要 初始 化 的 数据 目录 ; 其 他 选项 都 可 以 
-E，--encoding=ENCODING 设置 数据 库 的 默认 编码 ， 实际 它 是 ; 设置 了 
其 他 新 创建 的 数据 库 都 是 以 temp1Late1 头 



























































--locale=LOCALE 设置 区 域 
--lc-collate=, --lc-ctype=, --lc-messages=LOCALE 
--lc-monetary=, --lc-numeric=, --lc-time=LOCALE 
为 指定 的 分 类 设置 区 域 
--no-locale 等 价 于 --locale=C 
- -pwfile=FILE 从 一 个 文件 读 取 第 一 行 作为 数据 库 超级 用 
-T, --text-search-config=CFG 
设置 默认 的 文本 搜索 配置 。 
-U, --username=NAME 设置 数据 库 超级 用 户 的 用 户 名 ， 默认 古 p 
-W, --pwprompt 在 initdb 的 过 程 中 为 数据 库 超级 用 户 设 
-X, --waldir=WALDIR 指定 预 写 日 志 (WAL) 的 存储 目录 。 





知道 了 这 些 选项 的 意义 ， 我 们 开始 初始 化 上 一 
步 创 建 好 的 数据 目录 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/initdb -D /pgdata/10/data 
The files belonging to this database System will be owned by u 
This user must also own the server process. 

The database cluster will be initialized with locale "en_US.UT 
The default database encoding has accordingly been set to "UTF 
The default text search configuration will be set to "english" 
Data page checksums are disabled. 

Enter new superuser password: 

Enter it again: 

fixing permissions on existing directory /export/pg10 data ... 


creating subdirectories ... ok 

selecting default max_connections ... 100 

selecting default shared_ buffers ... 128MB 

selecting dynamic shared memory implementation ... posix 
creating configuration files ... ok 

running bootstrap Script ... ok 


performing post-bootstrap initialization ... ok 


syncing data to disk ... ok 

WARNING: enabling "trust" authentication for local connections 

You can change this by editing pg_hba.conf or using the option 

--auth-local and --auth-host, the next time you run initdb. 

Success,. You can now start the database server using: 
/opt/pgsql/bin/pg_ctl1 -D /pgdata/1i0/data -1 logfile start 

[postgres@pghost1 ~]$ 


因为 我 们 指定 了 -W 参 数 ， 所 以 在 初始 化 的 过 
程 中 ，initdb 工 具 会 要 求 为 数据 库 超 级 用 户 创建 窗 
人 码 。 在 initdb 的 输出 中 可 以 看 到 系统 自动 创建 了 
template1 数 据 库 和 postgres 数 据 库 ，template1 是 生成 
其 他 数据 库 的 模板 ，postgres 数 据 库 是 一 个 默认 数 
据 库 ， 用 于 给 用 户 、 工 具 或 者 第 三 方 应 用 提供 默认 
数据 库 。 输 出 的 最 后 一 行 还 告诉 了 你 如 何 司 动 刚 才 
初始 化 的 数据 库 。 


需要 注意 一 点 的 是 : 不 要 在 将 要 初始 化 的 数据 
目录 中 手动 创建 任何 文件 ， 如 打数 据 目 录 中 已经 有 
文件 ， 会 有 如 下 错误 提示 : 











initdb: directory "/pgdata/1i0/data" exists but is not empty 
If you want to create a new database system, either remove or 
the directory "/pgdata/10/data" or run initdb 

with an argument other than "/pgdata/10/data". 





这 样 做 的 目的 是 为 了 防止 无 音 中 履 盖 已 有 的 数 
据 目 承 。 


除了 使 用 initdb 来 初始 化 数据 目录 ， 还 可 以 使 
用 pg_ctl 工 具 进 行 数 据 库 目录 的 初始 化 ， 用 法 如 下 
所 示 : 





[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 init -D /pgdata/1i1c 


至 此 ， 数 据 库 目录 初始 化 完成 。 


使 用 官方 yum 源 安装 PostgreSQL 时 会 自动 创 
建 /var/ib/pgsq1/10 目 录 和 它 的 两 个 子 目录 : data 目 录 
和 backups 目 录 。 通 过 service postgresql-10init 命 令 会 
初始 化 /var/lib/pgsql/10/data 目 录 作 为 数据 目录 。 这 
样 很 方便 ， 但 是 可 定制 性 并 不 好 ， 建 议 按 照 上 面 的 
步 又 初始 化 数据 目录 。 








1.5 局 动 和 停止 数据 库 服务 需 
在 使 用 数据 库 服务 器 之 前 ， 必 须 先 启动 数据 库 
服务 器 。 可 以 通过 service 方 式 、PostgreSQL 的 命令 
行 工具 启动 或 停止 数 据 库 。 
1.5.1 ”使 用 service 方 式 
启动 数据 库 服 务 的 命令 如 下 所 示 : 
rodt on 1 Service Potureal do etait 
查看 数据 库 运 行 状态 的 命令 如 下 所 示 : 
[root@pghost1 ~]$ service postgresql-10 status 


停止 数据 库 的 命令 如 下 所 示 : 


[root@pghost1 ~]$ service postgresql-10 stop 


1.5.2 ”使 用 pg_ctl 进 行 管理 


pg&_ctl 是 PostgreSQL 中 初始 化 数据 目录 ， 局 
动 、 停 止 、 重 局 、 重 加 载 数据 库 服务 ， 或 者 奏 看 数 
据 库 服务 状态 的 工具 ， 相 比 service 或 systemctl 的 管 
理 方式 ，pg_ctl 提 供 了 丰富 的 控制 选项 ， 执 行 pg_ctl 
命令 需要 操作 系统 用 户 使 用 su 命令 切换 到 postgres 用 


» 


户 。 
1. 启 动 数 据 库 
代码 如 下 所 示 : 


[root@pghost1 ~]# su - postgres 
[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 -D /pgdata/10/data 
server started 





2. 但 看 数据 库 运行 状态 
代码 如 下 所 示 : 


[root@pghost1 ~]# su - postgres 
[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 -D /pgdata/10/data 
pg_ctl: no server running 





或 者 : 


pg_ctl: server is running (PID: 43965) 
/opt/pgsql/bin/postgres "-D" "/pgdata/10/data" 





还 可 以 使 用 pg_isready 工 具 来 检测 数据 库 服务 
器 是 否 已 经 允许 接受 连接 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_isready -p 1921 
/tmp:1921 - accepting connections 


或 者 : 


/tmp:1921 - no response 


3. 停 止 数据 库 
使 用 pg_ctl 停 止 数 据 库 的 命令 为 : 


pg_ctl stop [-D DATADIR] [-m SHUTDOWN-MODE] [-w] [-t SECS] 


“_s” 参 数 开 启 和 关闭 屏 从 上 的 消 恩 输出 ; 
SECS” 参 数 设置 超时 时 间 ， 超 过 SECS 信 设置 的 超时 
时 间 目 动 退出 。 其 中 的 “-m” 参 数控 制 数 据 库 用 什么 
模式 停止 ，PostgreSQL 文 持 三 种 停止 数据 库 的 模 
式 : smart、fast、immediate， 默 认为 fast 模 式 。 


smatt 模 式 会 等 和 活动 的 事务 提 六 结束 ， 并 这 
待 客户 端 主动 断 开 连接 之 后 关闭 数据 库 。 


.fast 模式 则 会 回 滚 所 有 活动 的 事务 ， 并 强制 
断 开 客户 端的 连接 之 后 关闭 数据 库 。 


. immediate 模 式 立 即 终止 所 有 服务 器 进程 ， 当 
一 次 数据 库 启动 时 它 会 首先 进入 恢复 状态 ， 一 般 
不 推荐 使 用 。 


在 写 命令 的 时 候 ， 这 三 个 值 可 以 分 别 简 写 为 “- 
ms mf”-mi”， 例 如 使 用 smart 模 式 停 止 数据 库 的 
命令 如 下 所 示 : 


[root@pghost1 ~]# su - postgres 
[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 -D /pgdata/10/data 


1.5.3 ”其 他 启动 和 关闭 数据 库 服务 右 的 方式 


还 有 其 他 一 些 局 动 和 信 止 数据 库 的 廊 式 ， 例如 
使 用 postmaster 或 postgres 程 序 启动 数据 库 ， 命 令 如 
下 所 示 : 


[root@pghost1 ~]# su - postgres 
[postgres@pghost1 ~]$ /opt/pgsql/bin/postgres -D /pgdata/10/da 


这 样 将 在 前 台 运 行 数据 库 服务 器 ， 通 党 加 
上 “&c” 符 号 让 它 在 后 台 运 行 。 





在 PostgreSQL 的 守护 进程 postmaster 的 入 口 函 数 
中 注册 了 信号 处 理 程序 ， 对 SIGINT、SIGTERM、 
SIGQUIT 的 处 理 方式 分 别 对 应 PostgreSQL 的 三 种 关 
闭 方式 smart、fast、immediate。 因 此 我 们 还 可 以 使 
用 Kill 命令 给 postgres 进 程 发送 SIGTERM、 
SIGINT、SIGQUIT 信 号 停 目 数据库， 例如 使 用 
smart 方 式 关 闭 数据 库 的 命令 如 下 所 示 : 





[postgres@pghost1 ~]$ kill -sigterm ‘head -1 /pgdata/10/data/p 
received smart shutdown request 

shutting down 

database system is shut down 


通过 日 志 输 出 可 以 看 到 该 命令 是 通过 smart 关 闭 
数据 库 的 。 它 内 部 的 原理 可 以 查看 PostgreSQL 内 核 
相关 的 书籍 或 者 阅读 源码 中 pgsignal 和 pmdie 相 关 的 
代码 进行 了 解 。 

为 PostgreSQL 的 安装 程序 已 经 包装 好 了 
pg_ctl 工 具 ， 所 以 通过 kill 发 送信 号 的 方法 一 般 不 常 
用 。 





1.5.4 配置 开机 局 动 





如 朱 使 用 官方 yum 源 安 疹 ， 会 目 动 配置 服务 肢 
本 ; 如 朵 明 过 源码 编 详 安 农 ， 则 需要 手动 配 力 。 


1. 配 置 服 务 脚 本 


在 源码 包 的 contrib 目 录 中 有 Linux、FreeBSD、 
OSX 适 用 的 服务 脚本 ， 如 下 所 示 : 





[root@pghost1 ~]$ ls postgresql-10.0/contrib/start-scripts/ 
freebsd linux oSsx 





我 们 将 名 称 为 linux 的 脚本 找 贝 到 /etc/init.d/ 目 录 
中 ， 将 脚本 重 命 名 为 postgresql-10， 并 赋予 可 执行 
权限 ， 命令 如 下 所 示 : 








[root@pghost1 ~]$ cp postgresql-10.0/contrib/start-scripts/1in 
[root@pghost1 ~]$ chmod +x /etc/init.d/postgresql-10 
[root@pghost1 ~]$ ls -lh /etc/init.d/postgresql-10 

-rwxr-xr-x 1 root root 3.5K Oct 13 16:30 /etc/init.d/postgresoa 





2. 设 置 开 机 启动 


chkconfig--list 命 令 可 以 租 看 PostgreSQL 是 个 是 
开机 局 动 的 ， 如 下 所 示 : 





[root@pghost1 ~]$ chkconfig --list | grep postgresql-10 
postgresql-10 ©:off 1:off 2:0off 3:0off 4:0ff 5:off 








chkconfig 命 令 将 局 用 或 禁用 PostgreSQL 开 机 局 
动 ， 如 下 所 示 : 


一 1 


[root@pghost1 ~]$ chkconfig postgresql-10 on/off 


一 == 


1.6 ”数据 库 配 置 基 础 


在 一 个 数据 库 实例 中 ， 有 些 配置 会 影响 到 整个 
实例 ， 这 些 我 们 称 为 全 局 配置 ， 有 些 配 置 只 对 一 个 
数据 库 实例 中 的 单个 Database 生 效 ， 或 只 对 当前 会 
话 或 者 菏 个 数据 库 用 尸 生 效 ， 这 一 类 的 配置 我 们 称 
为 非 全 局 配置 。 


PostgreSQL 有 两 个 重要 的 全 局 配置 文件 : 
postgresql.conf 和 pg_hba.conf。 它 们 提供 了 很 多 可 配 
置 的 参数 ， 这 些 参数 从 不 同 层 面 影响 看 数据 库 系 统 
的 行为 ，postgresql.conf 配 置 文件 主要 负责 配置 文件 
人 位置、 资源 限 制 、 集 群 复制 等 ，pg_hba.conf 文 件 则 
负责 客户 端的 连接 和 认证 。 这 两 个 文件 都 位 于 初始 
化 数据 目录 中 。 








1.6.1 配置 文件 的 位 置 
在 实例 化 数据 目录 之 后 ， 在 数据 目录 的 根 目录 


下 会 有 postgresql.conf、postgresql.auto.conf、 
pg_hba.conf 和 pg_ident.conf 这 几 个 配置 文件 。 除 身 
份 认证 以 外 的 数据 库 系统 行为 都 由 postgresql.conf 文 
件 配 置 。 


1.6.2 pg_hba.conf 





pg_hba.conf 是 它 所 在 数据 库 实例 的 “防火 墙 ”， 
文件 格式 如 下 : 


TYPE DATABASE USER ADDRESS 

local database user auth-method [auth-options] 

host database user address auth-method [auth-options] 

hostssl database user address auth-method [auth-options] 
hostnossl database user address auth-method [auth-options] 
host database user IP-address IP-mask auth-method [auth-option 
hostssl database user IP-address IP-mask auth-method [auth-opt 
hostnossl database user IP-address IP-mask auth-method [auth-o 


这 些 配 置 看 起 来 复杂 ， 实 际 上 简单 来 说 每 一 行 
的 作用 就 是 :人 允许 哪些 主机 可 以 通过 什么 连接 方式 
和 认证 方式 通过 哪个 数据 库 用 户 连 接 哪个 数据 库 。 
也 就 是 允许 ADDRESS 列 的 主机 通过 TYPE 方 式 以 
METHOD 认 证 方式 通过 USER 用 户 连 接 DATABASE 
数据 库 。 


[和 连 所 方 起 


TYPE 列 标识 允许 的 连接 方式 ， 可 用 的 值 有 : 
local、host、hostss1l、hostnossl， 说 明 如 下 : 





.local 匹配 使 用 Unix 域 套 接 字 的 连接 。 如 果 没 
有 TYPE 为 local 的 条 目 则 不 允许 通过 Unix 域 套 接 字 连 


接 。 

. host 匹 配 使 用 TCP/IP 建 立 的 连接 ， 同 时 匹配 
SSL 和 非 SSL 连 接 。 默 认 安 装 只 监听 本 地 环 回 地 址 
localhost 的 连 授 ， 不 允许 使 用 TCP/IP 远 程 连 授 ， 局 
用 远程 连接 需要 修改 postgresql.conf 中 的 
listen_addresses 参 数 。 


. hostssl 匹 配 必须 是 使 用 SSL 的 TCP/IP 连 接 。 
配置 hostssIL 有 三 个 前 提 和 条件 : 


1. 客 户 端 和 服务 端 都 安装 OpenSSL; 


2. 编 详 PostgreSQL 的 时 候 指 定 configure 参 数 -- 
with-openssl 打 开 SSL 支 持 ; 


3. 在 postgresql.conf 中 配置 ssl=on。 


. hostnossl 和 和 hostssl 相 反 ， 它 只 匹配 使 用 非 SSL 
的 TCP/IP 连 接 。 


2. 目 标 数据 库 


DATABASE 列 标识 该 行 设置 对 哪个 数据 库 生 
效 ; 


3. 目 标 用 户 


USER 列 标识 该 行 设 置 对 哪个 数据 库 用 户 生 


效 ; 
4. 访 问 来 源 


ADDRESS 列 标识 该 行 设置 对 哪个 IP 地 址 或 IP 
地 址 段 生 效 ; 


BT 


METHOD 列 标识 客户 闯 的 认证 方法 ， 第 见 的 
认证 方法 有 trust、reject、md5 和 password 等 。 


reject 认 证 方式 主要 应 用 在 这 样 的 场景 中 : 人 允许 
某 一 网 段 的 大 多 数 主机 访问 数据 库 ， 但 拒绝 这 一 网 
段 的 少数 特定 主机 。 


md5 和 password 认 证 方式 的 区 别 在 于 md5 认 证 
方式 为 双重 md5 加 窗 ，password 指 明文 密码 ， 所 以 
不 要 在 非 信 任 网 络 使 用 password 认 证 方式 。 


scram-sha-256 是 PostgreSQL 10 中 新 增 的 基于 
SASEL 的 认证 方式 ， 是 PostgreSQL 目前 提供 的 最 安 
全 的 认证 方式 。 使 用 scram-sha-256 认 证 方式 不 文 持 
旧版 本 的 客户 端 库 。 如 果 使 用 PostgreSQL 10 以 前 的 
客户 端 库 连 接 数 据 库 ， 会 有 如 下 错误 : 








[postgres@pghost2 ~]$ /usr/pgsql-9.6/bin/psql -h pghost1 -p 19 
psql: SCRAM authentication requires libpq version 10 or above 


更 多 认证 方式 的 详细 说 明 参 考官 方 文 
档 : https://www.postgresql.org/docs/current/static/autl 
methods.html 。 


1.6.3 postgresql.conf 


postgresql.conf 配 置 文件 的 文件 结构 很 简单 ， 由 
多 个 configparameter=value 形 式 的 行 组 成 ,“ 拓 开头 
的 行为 注释 。value 文 持 的 数据 类 型 有 布尔 、 整 数 、 
浮 点 数 、 字 符 串 、 枚 举 ，value 的 值 还 文 持 各 种 单 
位 ， 例 如 MB、GB 和 ms、min、d 等 。 
postgresql.conf 文 件 还 支持 inpclude 和 include _ 计 _exists 
指令 ， 并 且 人 允许 舱 套 。 


在 配置 项 末尾 标记 了 “# (change requires 
restart) ”的 配置 项 是 需要 重启 数据 库 实例 才 可 以 生 
鸡 的 ， 其 他 没有 标记 的 配置 项 只 需要 reload 即 可 生 


1. 全 局 配置 的 修改 方法 
修改 全 局 配置 的 方法 有 : 





修改 postgtresqlconf 配 置 文件 。 


. 使 用 vim、nano 类 的 文本 编辑 器 或 者 sed 命 令 
编辑 它们 。 


. 通过 ALTER SYSTEM 命 令 修 改 全 局 配置 ， 例 
如 : 


mydb=# ALTER SYSTEM SET listen addresses = '*'， 


通过 ALTER SYSTEM SQL 命令 修改 的 全 局 配 
置 参 数 ， 会 目 动 编辑 postgresql.auto.conf 文 件 ， 在 数 
据 库 启动 时 会 加 载 postgresql.auto. conf 文 件 ， 并 用 它 
的 配置 覆盖 postgresql.conf 中 已 有 的 配置 。 这 个 文件 
不 要 手动 修改 它 。 
启动 数据 库 时 进行 设置 ， 例 如 : 


[postgres@pghost1 ~]$ /opt/pgsql/bin/postgres -D /pgdata/10/da 


2. 非 全 局 配置 的 修改 方法 
. 设置 和 重 置 Database 级 别 的 配置 ， 例 如 : 


ALTER DATABASE name SET configparameter { TO | = } {value |5 
ALTER DATABASE name RESET configuration 





. 设置 和 重 置 Session 级 别 的 配置 。 


. 通过 SET 命令 设置 当前 Session 的 配置 ， 例 
如 : 





SET configparameter { TO | = } {value | 'value' | DEFAULT } 
SET configparameter TO DEFAULT ， 





更 新 pg_settings 视 图 ， 例 如 : 





'con 
Con 


UPDATE ‘pg_settings SET setting 
UPDATE ‘pg_settings ”SET setting 


new_value WHERE name 
reset _ val WHERE name 





使 用 set_config 阵 数 更 新 会 话 配置 ， 例 如 : 





SELECT set_config('configparameter',new value,false); 





` 设置 和 重 置 Role 级 别 的 配置 ， 例 如 : 





ALTER ROLE name IN DATABASE database name SET configparameter 
ALTER ROLE name IN DATABASE database name RESET configpara 





3. 如 何 查 看 配置 


查询 pg_settings 系 统 表 ， 例 如 : 


SELECT name, setting FROM pg_settings where name ~ ‘xxx’; 
SELECT current_setting(name); 


通过 show (show all) 命令 查看 。 
4. 使 配置 生效 的 方法 


如 采 兢 个 需要 重启 的 参数 ，reload 一 次 就 可 以 
生效 ， 命 令 如 下 所 示 : 











mydb=# SELECT pg_reload_conf(); 
pg_relLoad_conf 


(1 row) 


也 可 以 使 用 pg_ctl 命 令 reload 配 置 ， 命 令 如 下 所 
修 \: 





[root@pghost1 ~]# su - postgres 
[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 -D /pgdata/10/data 


1.6.4 ”允许 远程 访问 数据 库 
在 默认 情况 下 ，PostgreSQL 实 例 是 不 允许 通过 


远程 访问 数据 库 的 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ netstat -nlt | grep 1921 
Active Internet connections (only servers) 


Proto Recv-Q Send-Q Local Address Foreign Address 
tcp 0 0 127.0.0.1:1921 0.0.0.0:* 
tcp 0 0 ::1:1921 0 


从 其 他 主机 访问 数据 库 痢 口 ， 将 会 被 拒绝 ， 如 
下 所 示 : 


[postgres@pghost2 ~]$ telnet pghost1 1921 
Trying pghost1... 
telnet: connect to address pghost1: Connection refused 


通过 以 下 配置 方法 ， 人 允许 从 远程 访问 数据 库 。 
1. 修 改 监听 地 址 


PostgreSQL 管 理 监听 地 址 的 配置 项 为 
postgresql.conf 文 件 中 的 listen_addresses。 默 认 安 装 
只 监听 本 地 环 回 地 址 localhost 的 连接 ， 不 允许 使 用 
TCP/PP 建 立 远 程 连接 ， 司 用 远程 连接 需要 修改 
postgresql.conf 中 的 listen_addresses 参 数 。 用 文本 编 
辑 器 打开 postgresql.conf 配 置 文件 ， 命 令 如 下 所 示 : 


[postgres@pghost1 ~]$ vim /pgdata/10/data/postgresql.conf 


找到 名 称 为 listen_addresses 的 配置 项 ， 如 下 所 


A 


个 \: 


#1listen_addresses = 'localhost' # what IP address(es) to lis 
# comma-separated list of addresses; 
# defaults to 'localhost'; Use '*' for all 
# (change requires restart) 


关于 ]isten_addresses 参 数 的 4 行 注 释 ， 的 含义 如 
下 : 


. What IP address (es) to listen of 一 监听 什么 IP 
地 址 ? 也 就 是 允许 用 哪些 IP 地 址 访问 ， 可 以 是 一 个 
IP， 也 可 以 是 多 个 IP 地 址 。 


* comma-separated list of addresses; 一 以 逮 号 分 


隔 地 址 列表 。 


* defaults to'localhost ; use*'for al 一 默认 
是 “localhost ， 使 用 * ”允许 所 有 地 址 ; 大 多 数 
的 高 可 用 架构 都 使 用 VIP 的 方式 访问 数据 库 ， 所 以 
我 们 一 般 设置 为 “* 。 





(change requires restatt) 一 修改 这 个 参数 需 


要 重新 启动 数据 库 。 
去 挥 listen_addresses 这 一 行 开 涉 的 “#” 与 ， 并 把 


它 的 值 修改 为 “#*”， 即 允许 所 有 地 址 访问 数据 库 ， 
如 下 所 示 : 


Jisten addresses = '*' 


“修改 完成 之 后 重启 数据 库 使 配置 生效 ， 如 下 所 
修 \: 


[root@pghost1 ~]$ service postgresql-10 restart 


修改 监听 地 址 之 后 ， 还 需要 修改 pg_hba.conf 文 
件 ， 回 答 pg_hba.conf 的 问题 : 允许 哪些 主机 可 以 通 
过 什么 连接 方式 和 认证 方式 通过 哪个 数据 库 用 户 连 
接 哪 个 数据 库 ? 假设 我 们 允许 所 有 主机 通过 TCP/IP 
建立 的 连接 ， 同 时 匹配 SSL 和 非 SSL 连 接 ， 通 过 md5 
口令 认证 ， 使 用 pguser 用 户 ， 连 接 mydb 数 据 库 ， 那 
我 们 只 需要 在 pg_hba.conf 文 件 中 增加 一 行 ， 如 下 

外: 


[postgres@pghost1 ~]$ echo "host mydb pguser 0.0.0.0/0 md5" >> 


修改 pg_hba.conf 文 件 之 后 需要 reload 使 它 生 


[postgres@pghost1 ~]$ /opt/pgsql/bin/pg_ctl1 -D /pgdata/10/data 
server signaled 
2017-10-18 10:16:00.405 CST [36171] LOG: received SIGHUP, rel 


现在 就 可 以 通过 远程 访问 数据 库 了 。 


通常 Windows 防 火 墙 和 Linux 系 统 的 selinux 和 
iptables 也 会 影响 远程 访问 ， 在 Linux 中 一 般 可 以 天 
闭 selinuxz， 添 加 iptables 项 允许 远程 访问 数据 库 服务 
人 囊 或 关闭 iptables， 这 部 分 内 容 可 以 根据 操作 系统 的 
文档 管理 配置 。 








1.7 本 章 小 结 


本 章 介 绍 了 PostgreSQL 的 历史 和 特点 ， 介 绍 了 
如 何 获 得 PostgreSQEL 的 学 习 资 料 以 及 如 何 与 技术 社 
区 进行 沟通 交流 。 还 介绍 了 如 何 安 闭 部署 
PostgreSQL 数 据 库 服务 器 ， 以 及 PostgreSQL 的 应 用 
程序 大 致 功能 。 了 解 了 如 何 配置 PostgreSQL 服 务 
器 ， 如 何 创建 、 管 理 数据 库 实 例 ， 以 及 基础 的 数据 
库 配 置 项 。 通 过 本 章 的 学 习 ， 读 者 已 经 可 以 独立 创 
建 PostgreSQL 的 数据库 环境 ， 进 行 简 单 的 配置 ， 可 
以 在 一 个 数据 库 实 例 中 创建 用 户 以 及 数据 库 了 。 


第 2 章 ”客户 疹 工 具 


本 章 将 介绍 PostgreSQL 客 户 端 工具 ， 例 如 
pgAdmin 和 psql。pgAdmin 是 一 款 功 能 丰富 、 开 源 免 
费 的 PostgreSQL 图 形 化 客户 哨 工具 ，psq] 是 
PostgreSQL 目 市 的 命令 行 客户 端 工 具 ， 功 能 全 面 ， 
是 PostgreSQL 数 据 库 工程 师 必须 熟练 掌握 的 命令 行 
工具 之 一 ， 本 章 将 会 详细 介绍 它 的 独特 之 处 。 


2.1 pgAdmin 4 简介 


pgAdmin 是 最 流行 的 PostgreSQL 图 形 化 客户 端 
工具 ， 项 目 主 页 为 : https://www.pgadmin.org/ ， 由 
于 pgAdmin 4 工具 使 用 比较 简单 ， 这 里 仅 简 单 介 


绍 。 
2.1.1 pgAdmin 4 安装 


pgAdmin 文 持 Linux、Unix、Mac OS X 和 
Windows， 由 于 编写 此 书 时 pgAdmin 最 新 的 大 版 本 
为 4， 后 面 提 到 pgAdmin 时 我 们 都 称 为 pgAdmin 4， 
本 市 以 在 Windows 7 上 安装 pgAdmin 4 为 例 ， 人 简单 介 
绍 pgAdmin 4。 


安 疼 包 下 载 地 址 
为 : https://www.postgresql.org/ftp/pgadmin/pgadmin4 
/， 下 载 完 后 根据 提示 安装 即 可 ， 安 六 完 打 开 
pgAdmin 4 的 界面 如 图 2-1 所 示 。 








2.1.2 pgAdmin 4 使 用 





pgAdmin 4 的 使 用 非常 简单 ， 这 一 小 市 将 演示 
如 何 使 用 pgAdmin 4 连接 PostgreSQL 数 据 库 以 及 日 


单数 据 库 操作 。 


电 pgAdmin 4 与 儿 加 ES 


File ~ Object ~ Tools ~ Help ~ 


MM Browser | BB Dashboard 8 Properties 导 SQL ww Statistics 司 Depende(€ ](3 x), 


大 


目 Servers 
Welcome 


pgAdmin mM in Version 4 


Management Tools for PostgreSQL 








Feature rich | Maximises PostgreSQL | Open 
Source 


pgAdmin is an open source administration and management tool 
for the PostgreSQL database. The tools include a graphical 
administration interface, an SQL query tool, a procedural code 
debugger and much more. The tool is designed to answer the 
needs of developers, DBAs and System administrators alike 





图 2-1 pgAdmin 4 界面 


1.pgAdmin 4 连接 数据 库 


打开 pgAdmin 4 界面 并 创建 服务 ， 填 写 界面 上 
的 表单 ， 如 图 2-2 所 示 。 


和 Create - Server 
General Connection Advanced 


Host 192 168 28.74 
name/address 


Port 1921 


Maintenance postgres 
database 


Username postgres 
Password 


Save 
password? 


Role 


SSL mode Prefer 


Tg. 


图 2-2 ”使 用 pgAdmin 4 连接 数据 库 








图 General 界 面 用 于 配置 数据 库 连 接 别 名 ， 这 里 
配置 成 db1，Connection 配 置 页 完成 之 后 连接 数据 库 
如 图 2-3 所 示 。 


File ~ Object ~ Tools ~ Help ~ 


可 Browser 约 Dashboard 絮 Properties 国 SQL [ew Statistics 局 Dependencies DDependents 
日 - 目 Servers (1) 了 


和 Tranoactons per second 





日- 四 Databases (1) 1.00 | 
Sy postores 0.80 Rollbacks 
由 - 仿 Casts 5 Transactions 
由 外 Catalogs 
由 -Wb Event Triggers 0.40 
由 -并 Extensions 0.20 
由 层 Foreign Data Wrappers 
由 Languages 


SS schemas (1) 


由 ublic 1.00 
| : Op 融 |Inserts Fetched 
和 由- 各 Login/Group Roles Updates Returned 


由 -他 Tablespaces 国 Deletes 























Database activity 


Sessions Locks Prepared Transactions 











图 2-3 ”使 用 pgAdmin 4 连接 数据 库 
2.pgAdmin 4 得 询 工 具 的 使 用 


在 pgAdmin 4 面板 上 点 击 Tools 衣 早 中 的 Query 
Tool， 在 弹出 的 窗口 中 可 以 进行 日 党 的 数据 库 
DDL、DML 操 作 ， 例 如 创建 一 张 测试 表 ， 如 图 2-4 
所 示 。 

















Tools ~ Help > 


二 Dashboard 矿 Properties 国 SQL le Statistics 心 Dependencies Dependents 一- 
它 | 四- Qi- 押 克 | 全 | Thomt | 图 | 性 - 
postgres on postgres@db1 

id int4, text); 


1 create table test 


|| Data Output Explain essages istory 


CREATE TABLE 


Query returned successfully in 132 msec. 





由 e 
日 - 偷 Tables (1) 


| 
由 : 国 test_1 





图 2-4 使 用 pgAdmin 4 创建 表 


以 上 演示 了 使 用 pgAdmin 4 连接 数据 库 并 创建 
测试 表 。 由 于 篇 幅 有 限 ， 创 建 函 数 、 序 列 、 视 图 、 
DDL 等 操作 这 里 不 再 演示 。 








3. 用 pgAdmin 4 显示 统计 信息 
pgAdmin 4 具有 丰富 的 监控 功能 ， 如 图 2-5 所 


示 ， 显 示 了 数据 库 进 程 、 每 秒 事务 数 、 记 录 数 变化 
等 相关 信息 。 








二 Dashboard 中 Properties 当 SQL ww Statistics 匡 Dependencies 人 Dependents 9S aa 国电 国 
日 - 目 Servers (1) a 


已 : 娃 db1 Server sessions Transactions per second 


昌 - 目 Databases (1) 15.0 一 
BB [ 引 postgres Rollbacks 
由 -外 Casts 贱 Transactions 
由 - 仿 catalogs 
-> Event Triggers 
} 怨 Extensions 
5 车 Foreign Data Wrappers 








Languages 


生命 schemas Tuples out 


由 -各 Login/Group Roles 800 
外 -© Tablespaces 


Fetched 
Updates 600 Returned 
Deletes 


400 


200 








0.00 





Server activity 
Sessions Locks Prepared Transactions Configuration 


[s | 


EN Database | User Client Backend start state 
2017-07-21 14:54:45 CST Activity: ! ~ 


«| | » 


图 2-5 ”使 用 pgAdmin 4 显示 数据 库 统计 信息 




















pgAdmin 4 工具 先 介 绍 到 这 里 ，pgAdmin 4 其 他 
图 形 化 功能 读者 可 上 自行 测试 。 


2.2 ”psql 功 能 及 应 用 


psql 是 PostgreSQL 目 市 的 命令 行 客 户 问 工具 ， 
其 有 非常 丰富 的 功能 ， 类 似 于 Oradle 命 令 行 客 户 站 
工具 sqlplus， 这 一 节 将 介绍 psql 弟 用 功能 和 少数 特 
殊 功 能 ， 熟 练 掌握 psql 能 便捷 处 理 PostgreSQL 日 常 
Es 





2.2.1 ”使 用 psql 连 接 数 据 库 


用 psql 连 接 数 据 库 非常 简单 ， 可 以 在 数据 库 服 
务 中 执行 ， 也 可 以 远程 连接 数据 库 ， 在 数据 库 服 务 
闹 连 接 本 地 库 示例 如 下 所 示 : 


[postgres@pghost1 ~]$ psql postgres postgres 
psql (10.0) 

Type "help" for help. 

postgres=# 





psql 后 面 的 第 一 个 postgres 表 示 库 名 ， 第 二 个 
postgres 表 示 用 户 名 ， 端 口号 默认 使 用 变量 
$PGPORT 配 置 的 数据 库 端 口号 ， 这 里 是 1921 端 
口 ， 为 了 后 续 演 示 方 便 ， 创 建 一 个 测试 库 mydb， 归 
属 为 用 户 pguser， 同 时 为 mydb 库 分 配 一 个 新 表 空 间 
tbs_ mydb， 如 下 所 示 : 





- -创建 用 户 
postgres=# CREATE ROLE pguser WITH ENCRYPTED PASSWORD "pguser 
CREATE ROLE 





- -创建 表 空 间 目 录 
[postgres@pghost1 ~]$ mkdir -p /database/pg1i0/pg_tbs/tbs_ mydb 





- -创建 表 空间 
postgres=# CREATE TABLESPACE tbs_mydb OWNER pguser LOCATION '/ 
CREATE TABLESPACE 





- -创建 数据 库 

postgres=# CREATE DATABASE mydb 
WITH OWNER = pguser 
TEMPLATE = template0 
ENCODING = 'UTF8' 
TABLESPACE = tbs_mydb 

CREATE DATABASE 


-- 赋 权 
GRANT ALL ON DATABASE mydb TO pguser WITH GRANT OPTION ; 
GRANT ALL ON TABLESPACE tbs_mydb TO pguser ; 





CREATE DATABASE 命 令 中 的 OWNER 选 项 表 
示 数 据 库 属 主 ，TEMPLATE 表 示 数 据 库 模板 ， 默 认 
有 template0 和 template1 模 板 ， 也 能 自 定 义 数 据 库 模 
板 ，ENCODING 表 示 数 据 库 字 符 集 ， 这 里 设置 成 
UTF8，TABLESPACE 表 示 数 据 库 的 默认 表 空 间 ， 
新 建 数据 库 对 象 将 默认 创建 在 此 表 空 间 上 ， 通 过 
psql 远 程 连 接 数 据 库 的 语法 如 下 所 示 : 








psql [option...] [dbname [usernamej]] 





服务 器 pghost1 的 IP 为 192.168.28.74，pghost2 的 
IP 为 192.168.28.75， 在 pghost2 主 机 上 远程 连接 
pghostL 上 的 mydb 库 命令 如 下 : 


[postgres@pghost2 ~]$ psql -h 192.168.28.74 -p 1921 mydb pguse 
Password for user pguser: 

psql (10.0) 

Type "help" for help. 


汤 开 psql 客 户 问 连接 使 用 \g 元 命令 或 CTRL+D 
快捷 键 即 可 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql mydb pguser 
psql (10.0) 

Type "help" for help. 

mydb=> \q 


下 一 小 节 将 详细 介绍 psql 文 持 的 元 命令 。 
2.2.2 ”psql 元 命令 介绍 


psqdl 中 的 元 命令 是 指 以 有 反 和 鲜 线 开头 的 命令 ， 
psdl 提 供 直 是 的 元 命令 ， 能 够 便捷 地 管理 数据 库 ， 
比如 查看 数据 库 对 象 定 义 、 查 看 数据 库 对 象 占用 空 
间 大 小 、 列 出 数据 库 各 种 对 象 名 称 、 数 据 导入 导出 
等 ， 比 如 查看 数据 库 列 表 ， 如 下 所 未: 


postgres=# \1 
List of databases 


Name | Owner | Encoding | Collate | Ctype | Access 
和 TT 
mydb | postgres | UTF8 | C | C | =Tc/posto 

| | | | | postgres= 
| | | | | pguser=C/ 
postgres | postgres | UTF8 | C | C | 
template© | postgres | UTF8 | C | C | =c/postgr 
| | | | | postgres= 
template1 | postgres | UTF8 | C | C | =c/postgr 
| | | | | postgres= 
(4 rows) 





1.\db 合 看 表 空 间 列表 
使 用 元 命令 \db 合 看 表 空 间 ， 如 下 所 示 : 





postgres=# \db 
List of tablespaces 
Name | Owner Location 


pg_default | postgres 

pg9_global | postgres 

tbs_mydb | pguser | /database/pg10/pg_tbs/tbs_mydb 
(3 rows ) 查 看 表 定 义 





2.\d 碍 看 表 和 定义 


先 创建 一 张 测试 表 ， 如 下 所 示 : 





mydb=> CREATE TABLE test_ 1(id int4,name text, 
create time timestamp without time zone default clock_ time 
CREATE TABLE 


mydb=> ALTER TABLE test_1 ADD PRIMARY KEY (id); 
ALTER TABLE 





generate_series 国 数 产生 连续 的 整数 ， 使 用 这 个 
函数 能 非常 方便 地 产生 测试 数据 ， 查 看 表 test_1 定 
义 只 雷 要 执行 元 命令 \d 后 接 表 名 ， 如 下 所 示 : 





mydb=> \d test 1 
Table "pguser .test_1" 


Column | Type | Collation | Nullable 
----------- +----------------------------+-----------T+--------- 
Id | Integer | | not null 
name | text | 
create time| timestamp without time zone | | 
Indexes: 


"test_1 pkey" PRIMARY KEY , btree (id) 





3. 但 看 表 、 索 引 占 用 空间 大 小 
给 测试 表 test_1 插 入 500 万 数据 ， 如 下 所 示 : 





mydb=> INSERT INTO test_1(id,name) 
SELECT n,n || '_francs' 
FROM generate_series(1,5000000) n; 
INSERT © 5000000 





但 看 表 大 小 执行 \dt+ 后 接 表 名 ， 如 下 所 示 : 





mydb=> \dt+ test 1 
List of relations 
Schema | Name | Type | Owner | Size | Description 


有 1 
pguser | test_1 | table | pguser | 287 MB | 
(1 row) 





查看 索引 大 小 执行 di+ 后 接 索引 名 ， 如 下 所 


一 < 


外: 





mydb=> \di+ test 1 pkey 
List of relations 


Schema | Name | Type | Owner | Table | Size | Desc 
避 I I 
pguser | test 1 pkey | index | pguser | test 1 | 107 MB | 

(1 row) 





4.\sf 查 看 函数 代码 
元 命令 \sf 后 接 函 数 名 可 查看 函数 定义 ， 如 下 所 








一 < 


人 外 : 





mydb=> \sf random_range 

CREATE OR _ REPLACE FUNCTION pguser.random range(integer, intege 
RETURNS integer 
LANGUAGE sql 

AS $function$ 
SELECT ($1 + FLOOR(($2 - $1 + 1) * random() ))::int4; 
$function$ 





上 述 \sf 命 令 后 面 可 以 只 接 函 数 的 名 称 ， 或 者 函 
数 名 称 及 输入 参数 类 型 ， 例 如 
random _ range (integer，integer) ，PostgreSQL 文 持 





名 称 相同 但 输入 参数 类 型 不 同 的 函数 ， 如 果 有 同名 
函数 ，\sf 必 须 指定 函数 的 参数 类 型 。 


5.\x 设 置 查询 结果 输出 
使 用 可 设置 得 询 结 末 得 出 模式 ， 如 下 所 未 : 








mydb=> SELECT * FROM test 1 LIMIT 1; 


id | name | create_ time 
和 EE 
1 | 1 pguser | 2017-07-22 11:16:15.97559 
(1 row) 
mydb=> \x 


Expanded display is on. 

mydb=> SELECT * FROM test 1 LIMIT 1; 

=[ RECORD 4 -== 
id | 1 

name | 1_francs 

create_ time | 2017-07-22 11:16:15.97559 


6. 获 取 元 命令 对 应 的 SQL 代码 


psql 提 供 的 元 命令 实质 上 辐 数 据 库 发 出 相应 的 
SQL 查询 ， 当 使 用 psqgl 连 接 数据 库 时 ，-E 选 项 可 以 
获取 元 命令 的 SQL 代码 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql -E mydb pguser 
psql (10.0) 
Type "help" for help. 


mydb=> \db 


火炎 大 大 大 大 大 大 大 QUERY 大 炎炎 炎炎 火炎 火炎 类 


SELECT spcname AS "Name", 
pg_catalog.pg_get_userbyid(spcowner) AS "Owner", 
pg_catalog.pg_tablespace_ location(oid) AS "Location" 
FROM pg_catalog.pg_tablespace 

ORDER BY 1 工 ; 


火炎 火炎 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


List of tablespaces 


Name | Owner | Location 
a I 
pg_default | postgres | 
pg_9g9lobal | postgres | 
tbs_mydb | pguser | /database/pg10/pg_tbs/tbs mydb 


(3 rows) 





i 


7\? 元 命令 


PostgreSQL 文 持 的 元 命令 很 多 ， 当 忘记 具体 的 
元 命令 名 称 时 可 以 但 询 手册 ， 男 一 种 便捷 的 方式 是 
执行 \? 元 命令 列 出 所 有 的 元 命令 ， 如 下 所 示 : 





mydb=> \? 

General 
\copyright Show PostgreSQL usage and distribu 
\crosstabview [COLUMNS] execute query and display results 
\errverbose show most recent error message at 
\g [FILE] or ; execute query (and send results tc 
\gexec execute query, then execute each v 
\gset [PREFIX] execute query and store results in 
\gx [FILE] as \g, but forces expanded output 
Nd duit psql 
\watch [SEC ] execute query every SEC seconds 

Help 
\? [commands ] Show help on backslash commands 
\? options Show help on psql command-line opt 
\? variables show help on special variables 


\h [NAME] help on syntax of SQL commands, * 


\? 元 命令 可 以 迅速 列 出 所 有 元 命令 以 及 这 些 
元 命令 的 说 明 及 语法 ， 给 数据 库 维 护 管理 带 来 很 大 
的 便利 。 


8. 便 捷 的 HELP 命 令 


psql 的 HELP 命 令 非 党 方便 ， 使 用 元 命令 \ 后 接 
SQL 命令 关键 字 能 将 SQL 命令 的 语法 列 出 ， 对 日 常 
的 数据 库 管 理工 作 珊 来 了 极 大 的 便利 ， 例 如 
CREATE TABLESPACE 能 显示 此 命令 的 语法 ， 如 
下 所 示 : 





postgres=# \h CREATE TABLESPACE 


Command : CREATE TABLESPACE 
Description: define a new tablespace 
Syntax: 


CREATE TABLESPACE tablespace_name 
[ OWNER { new owner | CURRENT_USER | SESSION_USER } ] 
LOCATION ‘directory' 
[ WITH ( tablespace option = value [, ... ] )|] 


元 命令 后 面 不 接任 何 SQL 命 令 则 会 列 出 所 有 
的 SQL 命令 ， 为 不 完全 记得 SQL 命令 语法 时 提供 了 
检索 的 途径 。 


2.2.3 ”psql 导 入 、 导 出 表 数 据 


psql 支 持 文件 数据 导入 到 数据 库 ， 也 支持 数据 
库 表 数据 导出 到 文件 中 。COPY 命 令 和 \copy 命 令 都 
支持 这 两 类 操作 ， 但 两 者 有 以 下 区 别 : 


1) COPY 命 令 是 SQL 命 令 ，\copy 是 元 命令 。 





2) COPY 命 令 必须 具有 SUPERUSER 超 级 权限 
(将 数据 通过 stdin、stdout 方 式 导 入 导出 情况 除 
外 ) ， 而 \copy 元 命令 不 需要 SUPERUSER 权 限 。 


3) COPY 命 令 读 取 或 写 入 数据 库 服 务 端 主机 上 
的 文件 ， 而 \copy 元 命令 是 从 psql 客 户 端 主机 读 取 或 
写 入 文件 。 


4) 从 性 能 方面 看 ， 大 数据 量 导出 到 文件 或 大 
文件 数据 导入 数据 库 ，COPY 比 \copy 性 能 高 。 
1. 使 用 COPY 命 令 导 入 导出 数据 


先 来 看 看 COPY 命 令 如 何 将 文本 文件 数据 导入 
到 数据 库 表 中 ， 首 先 在 mydb 库 中 创建 测试 表 
test_copy， 如 下 上 所 示 : 








mydb=> CREATE TABLE test_copy(id int4,name text); 
CREATE TABLE 


之 后 编写 数据 文件 test_copy_in.txt， 字段 分 隔 
符 用 TAB 键 ， 也 可 设置 其 他 分 隔 符 ， 导 入 时 再 指定 
已 设置 的 字段 分 隔 符 。testcopy-in.txt 文 件 如 下 所 
和 修 : 





[pgio@pghost1 Script]$ cat test_copy_in.txt 
a 


2 b 
3 C 








之 后 以 postgres 用 户 登 录 mydb 库 ， 并 将 
test_copy_in.txt 文 件 中 的 数据 导入 到 test_copy 表 中 。 
导入 命令 如 下 所 示 : 





[pg1io@pghost1 script]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# COPY pguser.test copy FROM '/home/postgres/script/test_ 
COPY 3 
mydb=# SELECT * FROM pguser.test copy ， 

id | name 











如 果 使 用 普通 用 户 pguser 导 入 文件 数据 ， 则 报 
以 下 错误 。 





[pgio@pghost1 Script]$ psql mydb pguser 
psql (10.0) 
Type "help" for help. 


mydb=> COPY test _ copy FROM '/home/postgres/script/test_ copy_in 
ERROR: must be superuser to COPY to or from a file 
HINT: Anyone can COPY to stdout or from stdin. psql's \copy -< 








报错 信息 示 很 明显 ，COPY 命 令 只 有 超级 用 户 
沁 目 而 \copy 元 命令 性; 通用 户 即 可 使 用 。 接 下 
来 演示 通过 COPY 命 令 将 表 test_copy 中 的 数据 导出 
文件 同样 使 用 postgres 用 户 登 录 到 mydb 库 ， 如 
下 所 示 。 











[pgio@pghost1 script]$ psql mydb postgres 

psql (10.0) 

Type "help" for help. 

mydb=# COPY pguser.test copy TO '/home/postgres/test copy.txt' 
COPY 3 





查看 test_copy.txt 文 件 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ cat test copy.txt 
a 


2 b 
3 C 





也 可 以 将 表 数 据 输 出 到 标准 输出 ， 而 且 不 需要 
超级 用 户 权 限 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql mydb pguser 
psql (10.0) 
Type "help" for help. 


mydb=> COPY test _ copy TO stdout,; 


1 a 
2 b 
3 C 


也 能 从 标准 输入 导入 数据 到 表 中 ， 有 兴趣 的 读 
者 目 行 测试 。 


经 党 有 运营 或 开 友 人 员 要 求 DBA 提 供 生 产 库 运 
营 数 据 ， 为 了 显示 方便 ， 这 时 需要 将 数据 导出 到 
csv 格 式 。 








[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# COPY pguser.test copy TO '/home/postgres/test_ copy.csv' 
COPY 4 


上 述 命 令 中 的 with csv header 是 指导 出 格式 为 
csv 格 式 并 有 旦 显示 字段 名 称 ， 以 csv 为 后 级 的 文件 可 
以 使 用 office excel 打 开 。 以 上 数据 导出 示例 都 是 基 
于 全 表 数 据 导 出 的 ， 如 何 仅 导 出 表 的 一 部 分 数据 
呢 ? 如 下 代码 仅 导 出 表 test_copy 中 ID 等 于 1 的 数据 
记录 。 





mydb=# COPY (SELECT * FROM pguser.test_copy WHERE id=1) TO 
COPY 1 

mydb=# \q 

[postgres@pghost1 ~]$ cat 1.txt 

1 a 


关于 COPY 命 令 更 多 说 明 详 见 手册 
https:/www.postgresql.org/docs/10/static/sql]- 
copy.html 。 


2. 使 用 \copy 元 命令 导入 导出 数据 


COPY 命 令 是 从 数据 库 服务 端 主 机 读 取 或 写 入 


'/h 


文件 数据 ， 而 \copy 元 命令 从 psql 客 户 问 主机 读 取 或 
写 入 文件 数据 ， 并 且 \copy 元 命令 不 需要 超级 用 户 权 
限 ， 下 面 在 pghost2 主 机 上 以 普通 用 户 pguser 远 程 登 


录 pghost1 主 机 上 的 mydb 库 ， 并 且 使 用 \copy 元 命令 


导出 表 test_copy 数 据 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ psql -h 192.168.28.74 -p 1921 mydb pguse 


Password for user pguser: 
psql1 (10.0) 
Type "help" for help. 


mydb=> \copy test copy to '/home/postgres/test copy.txt'; 
COPY 3 


丛 看 test_copy.txt 文 件 ， 数 据 已 导出 ， 如 下 上 所 


一 


和 仆 : 


[postgres@pghost2 ~]$ cat test copy.txt 
a 


2 b 
3 C 





\copy 导 入 文件 数据 和 copy 命 令 类 似 ， 首 先 编写 
test_copy_in.txt 文 件 ， 如 下 所 示 : 





[postgres@pghost2 ~]$ cat test copy_in.txt 
4 d 





使 用 \copy 命 令 导 入 文本 test_copy_in.txt 数 据 ， 
如 下 所 示 : 





[postgres@pghost2 ~]$ psql -h 192.168.28.74 -p 1921 mydb pguse 
Password for user pguser: 

psql (10.0) 

Type "help" for help. 


mydb=> \copy test copy from '/home/postgres/test_ copy_in.txt'; 


COPY 1 

mydb=> SELECT * FROM test_ copy WHERE id=4; 
id | name 

es 半 沁 冲冲 记 人 训 
4 |d 

(1 row) 





没有 超级 用 户 权限 的 情况 下 ， 需 要 导出 小 表 数 
据 ， 通 党 使 用 \copy 元 命令 ， 如 果 是 大 表 数 据 导 入 导 
出 操作 ， 建 议 在 数据 库 服务 器 主机 使 用 COPY 命 
令 ， 效 率 更 高 。 


2.2.4 psql 的 语法 和 选项 介绍 


psql 连 接 数据 库 语 法 如 下 : 





psql1 [option...] [dbname [username]] 





其 中 dbname 指 连接 的 数据 库 名 称 ，username 指 
登录 数据 库 的 用 户 名 ，option 有 很 多 参数 选项 ， 这 
节 列 出 重要 的 参数 选项 。 

1.-A 设 置 非 对 齐 输出 模式 


psgl 执 行 SQL 的 输出 默认 是 对 齐 模 式 ， 例 如 : 





[postgres@pghost1 ~]$ psql -c "SELECT * FROM user_ini WHERE id 


id | user_id | user_name | create_ time 
2 Pe 
1 | 186536 | KTU89H | 2017-08-05 15:59:25.359148+08 
(1 row) 








- -注意 返回 结果 ， 这 里 有 空 行 





注意 以 上 输出 ， 格 式 是 对 齐 的 ，psql 加 上 -A 选 
项 如 下 所 示 : 





[postgres@pghost1 ~]$ psql -A -c "SELECT * FROM user_ini WHERE 
idl|user_idluser_name|create time 

1|186536|KTU89H|2017-08-05 15:59:25.359148+08 

(1 row) - -注意 返回 结果 ， 没 有 空 行 











加 上 -A 选项 后 以 上 输出 的 格式 变 成 不 对 齐 的 
了 ， 并 且 返 回 结 末 中 没有 空 行 ， 接 独 看 -t 达 项 。 


2. 并 只 显示 记录 数据 
另 一 个 psq] 重 要 选项 参数 为 -t，-t 参 数 设 置 输出 


只 显示 数据 ， 而 不 显示 字段 名 称 和 返回 的 结 朱 集 行 
数 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql -t -c "SELECT * FROM User_ini WHERE 
1 | 186536 | KTU89H | 2017-08-05 15:59:25.359148+08 
- -注意 返回 结果 ， 这 里 有 空 行 














注意 以 上 结果 ， 了 字段 名 称 不 再 显示 ， 返 回 的 结 
果 集 行 数 也 没有 显示 ， 但 尾部 仍然 有 空 行 ， 因此 -t 
参数 通 单 和 -A 参 数 结合 使 用 ， 这 时 仅 返 回 数据 本 
号 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql -At -c "SELECT * FROM user_ini WHEF 
1|186536|KTU89H|2017-08-05 15:59:25.359148+08 


以 上 结束 仅 返 回 了 数据 本 号 ， 在 编写 shell 脚 本 
时 非 营 有 效 ， 特 别 是 只 取 一 个 字段 的 时 候 ， 如 下 所 
修 \: 


[postgres@pghost1 ~]$ psql -At -c "SELECT User_name FROM user_ 
KTU89H 


3.-q 不 显示 和 输 出 售 忆 


默认 情况 下 ， 使 用 psql 执 行 SQL 命令 时 会 返回 
多 种 消息 ， 使 用 -q 参 数 后 将 不 再 显示 这 些 信 息 ， 下 
面 通过 一 个 例子 进行 演示 ， 首 先 创建 test_q.sql， 并 
输入 以 下 SQL: 








DROP TABLE if exists test_q; 
CREATE TABLE test_q(id int4); 
TRUNCATE TABLE test_q,; 

INSERT INTO test _q values (1); 
INSERT INTO test_q values (2); 





执行 脚本 test_q.sql， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql mydb pguser -f test _q.sql 
DROP TABLE 

CREATE TABLE 

TRUNCATE TABLE 

INSERT © 1 

INSERT © 1 





执行 脚本 test_q.sql 后 返回 了 大 量 信息 ， 加 上 -q 
参数 后 ， 这 些 信息 不 再 显示 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ psql -q mydb pguser -f test q.sql 
- -这 里 不 再 显示 输出 信息 





-q 选 项 通 党 和-c 或 -f 选 项 使 用 ， 在 执行 维护 操 
作 过 程 中 ， 当 输出 信息 不 重要 时 ， 这 个 特性 非常 有 
用 。 





2.2.5 ”psql 执 行 sql 脚 本 





psdl 的 -c 选 项 支持 在 操作 系统 层面 通过 psql 癌 数 
据 库 友 起 SQL 命 令 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql -c "SELECT current_ user;" 
current_user 

postgres 

(1 row) 





-C 后 接 执 行 的 SQL 命 令 ， 可 以 使 用 单 引 号 或 双 
引号 ， 同 时 支持 格式 化 输出 ， 如 果 想 仅 显示 命令 返 
回 的 结果 ， psql 加 上 -At 选项 即 可 ， 上 一 小 节 也 有 提 
到 ， 如 下 所 示 : 











[postgres@pghost1 ~]$ psql -At -c "SELECT current user;" 
postgres 


上 述 内 容 演示 了 在 操作 系统 层面 通过 psql 执 行 
SQL 命令 ， 那 么 如 何 导 入 数据 库 脚 本 文件 呢 ? 首先 
编写 以 下 文件 ， 文 件 名 称 为 test_2.sql: 


CREATE TABLE test 2(id int4); 
INSERT INTO test_2 VALUES (1); 
INSERT INTO test_2 VALUES (2); 
INSERT INTO test_2 VALUES (3); 


通过 -{ 参 数 导 入 此 脚本 ， 命 令 如 下 : 


[postgres@pghost1 ~]$ psql mydb pguser -f script/test 2.sql 
CREATE TABLE 

INSERT © 1 

INSERT © 1 

INSERT © 1 


以 上 命令 的 输出 结果 没有 报错 ， 表 示 文 件 中 所 
有 SQL 正 常 导 


Q 注意 psql 的 -sinpgle-ttansaction 或 -1 选项 支 
桂 在 一 个 事务 中 执行 脚本 ， 要 么 脚本 中 的 所 有 SQL 
执行 成 功 ， 如 果 其 中 有 SQL 执行 失败 ， 则 文件 中 的 
所 有 SQL 回 滚 。 
2.2.6 ”psql 如 何 传递 变量 到 SQL 


如 何 通 过 psql 工 具 将 变量 传递 到 SQL 中 ? 例如 
以 下 SQL: 


SELECT * FROM table _name WHERE column_name = 变量 ; 


下 面 演 示 两 种 传递 变量 的 方式 。 
1..\set 元 命令 方式 传递 变量 
\set 元 于 命令 可 以 设置 变量 ， 格 式 如 下 所 示 ， 


name 表 示 变 量 名 称 ，value 表 示 变 量 值 ， 如 果 不 填 
与 value, 变量 值 为 空 。 





\set name value 


test_copy 表 有 四 条 记录 ， 设 置 变 量 v_id 值 为 2， 
查询 id 值 等 于 2 的 记录 ， 如 下 所 示 : 


mydb=> \set v_id 2 
mydb=> SELECT * FROM test_ copy WHERE id=:v_id; 


id | name 
i 十 ------ 
2 | b 

(1 row) 


如 果 想 取消 之 前 变量 设置 的 值 ，\set 命 令 后 接 
参数 名 称 即 可 ， 如 下 所 示 : 


mydb=> \set v_id 





通过 \set 元 命令 设置 变量 的 一 个 典型 应 用 场景 
是 使 用 pgbench 进 行 压力 测试 时 使 用 \set 元 命令 为 变 





量 赋值 。 
2.psql 的 -v 参 数 传递 变量 


另 一 种 方法 是 通过 psql 的 -v 参 数 传 递 变量 ， 首 
先 编写 select_1.sql 脚 本 ， 脚 本 内 容 如 下 所 示 : 


SELECT * FROM test 3 WHERE id=:v_id; 


通过 psql 接 -v 传 递 变量 ， 并 执行 脚本 
select_1.sql， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql -v v_id=1 mydb pguser -f select 1.s 
id | name 


以 上 设置 变量 v_id 值 为 1。 





2.2.7 ”使 用 psql 定 制 日 常 维护 脚本 


编写 数据 库 维 护 脚本 以 提高 数据 库 排 障 效率 是 
DBA 的 工作 职 贡 之 一 ， 当 数据 库 开 第 时 ， 能 够 迅速 
发 现 问 题 并 解决 问题 将 为 企业 市 来 价值 ， 当 然 数据 
库 的 健康 检查 和 监控 也 要 加 强 。 这 里 主要 介绍 通过 


psdl 元 命令 定制 日 单 维护 脚本 ， 预 先 将 钊 用 的 数据 
库 维护 脚本 配置 好 ， 数 据 库 排 障 时 直接 使 用 ， 从 而 
提高 排 障 效率 。 


1. 定 制 维护 脚本 : 查询 活动 会 话 


先 来 介绍 .psglrc 文 件 ， 如 果 psql 没 有 带 -X 选 
项 ，psql 壬 试 读 取 和 执行 用 户 ~/.psglrc 启 动 文件 中 的 
命令 ， 结 合 这 个 文件 能 够 方便 地 预先 定制 维护 肢 
本 ， 例 如 ， 查 看 数据 库 活动 会 话 的 SQL 如 下 所 示 : 


SELECT pid,usename,datname, query,client_addr 
FROM pg_stat_activity 
WHERE pid <> pg_backend pid() AND state='active' ORDER BY quer 


pg_stat_activity 视 图 显示 PostgreSQL 进 程 信 
思 ， 每 一 个 进程 在 视图 中 存在 一 条 记录 ，Ppid 指 进程 
号 ，usename 指 数据 库 用 户 名 称 ，datname 指 数据 库 
名 称 ，query 显 示 进 程 最 近 执 行 的 9QL， 如 采 state 但 
为 active 则 query 显 示 当 前 正在 执行 的 SQL， 
client_addr 是 进程 的 客户 问 IP，state 指 进程 的 状态 ， 
主要 值 为 : 


active: 后 台 进 程 正 在 执行 SQL 。 


.idle: 后 台 进 程 为 空闲 状态 ， 等 待 后 续 客 户 


.ldle in transaction: 


不 是 指正 在 执行 SQL。 


. idle in transaction (aborted) : 


transaction 状 态 类似， 


关于 此 视图 更 多 


侣 进程 正在 事务 中 ， 并 


oidle in 


只 是 事务 中 的 部 分 SQL 异常 








言 电 :CA 请 参 青 参 污 手册 
https://www.postgresql.org/docs/10/static/monitoring- 
stats.html#pg-stat-activity-view 。 


首先 找到 ~/.psqlrc 文 件 ， 如 来 没有 此 文件 则 手 





工 创建 ， 编写 以 下 内 容 ， 注意 \set 这 行 命令 令 和 SQL 命 
令 在 一 行 中 编写 。 
- -查询 活动 会 话 


aed active_session 


'select pid,usename,datname, query,client a 





之 后 ， 重 新 连接 数据 库 ， 执 行 active_session 命 


今 


， 冒 写 后 接 变 量 名 即 可 ， 如 下 所 示 : 





postgres=# 
pid 


14355 
(5 rows) 


:active_session 
usename | 


pguser 
pguser 
pguser 
pguser 
pguser 


datname 


| 
十 


Update 
Update 
Update 
Update 
Update 


test_per1 
test_per1 
test_per1 
test_per1 
test_per1 


create_ti 
create_ti 
create_ti 
create_ti 
create_ti 
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通过 以 上 设置 ， 数 据 库 排 障 时 不 需要 临时 手工 
编写 查询 活动 会 话 的 SQL， 只 需 输入 : 
active_session 妈 可， 方便 了 日 常 维 护 操作 。 


2. 定 制 维护 脚本 : 查询 等 待 事件 


PostgreSQL 也 有 等 竺 事件 的 概念 ， 对 于 问题 诊 
条 有 较 大 参考 作用 ， 碍 询 等 待 事件 SQL 如 下 上 所 示 : 














SELECT pid,usename,datname, query,client_ addr,wait _ event_type,n 
FROM pg_stat_activity 

WHERE pid <> pg_backend pid() AND wait_ event is not null 
ORDER BY wait_ event_type; 





同样 ， 通 过 \set 元 命令 将 上 述 代 码 退 加 到 
~/.psqlrc 文 件 ， 注 意 \set 命 令 和 SQL 命令 在 同一 行 中 
编写 ， 如 下 所 示 : 





-- 查 看 会 话 等 待 事件 


\set wait event 'select pid,usename,datname, query,client addr, 








之 后 ， 重 新 连接 数据 库 ， 执 行 wait_event 命 
令 ， 冒 亏 后 接 变 量 名 即 可 ， 如 下 上 所 示 : 





postgres=# :wait_event 
pid | usename | datname | query | client addr | wait eve 
ee TE 
2652 | | | | | Activity 


2655 | postgres | | | | Activit 


2650 | | | | | Activit 

2649 | | | | | Activity 

2651 | | | | | Activity 
(5 rows) 


以 上 介绍 了 僵 询 活动 会 话 和 会 话 等 行事 件 ， 其 
他 维护 脚本 可 根据 实际 情况 定制 ， 比 如 查看 数据 库 
连接 数 ， 如 下 所 示 : 


-- 碍 看 数据 库 连 接 数 


\set connections "Select datname,vusename,client_ addr,count(*) 





通过 元 命令 \set 变 量 定 制 维 护 脚 本 只 能 在 一 定 
程度 上 方便 数据 库 日 党 维护 操作 ， 工 具 化 的 监控 工 
有 具 不 能 少 ， 比 如 Zabbix 或 Nagios， 这 些 监 控 工 具 可 
以 非常 方便 地 定制 数据 库 各 维度 监控 告警 ， 并 以 网 
表 形 式 展现 性 能 数据 。 


2.2.8 ”psql] 亮 点 功能 

psql 还 有 其 他 非常 突出 的 功能 ， 比 如 显示 SQL 
执行 时 间 、 上 反复 执行 当前 SQL、 目 动 补 全 、 历 史 命 
令 上 下 翻动 、 客 户 端 提 示 符 等 ， 这 节 主 要 介绍 psql 
的 这 些 第 用 的 亮点 功能 。 


1.\timing 显 示 SQL 执 行 时 间 








\timing 元 命令 用 于 设置 打开 或 天 闭 显 示 SQL 的 
执行 时 间 ， 单 位 为 室 秒 ， 例 如 





mydb=> \timing 

Timing is on. 

mydb=> SELECT count(*) FROM user_ini,; 
count 


1000000 
(1 row) 


Time: 47.114 ms 


以 上 显示 count 语 句 的 执行 时 间 为 47.114 坚 秒 ， 
这 个 特性 在 调试 SQL 性 能 时 非常 有 有 用， 如果 需要 天 
闭 这 个 选项 ， 再 次 执行 iming 元 命令 即 可 ， 如 下 所 
外: 


mydb=> \timing 
Timing is off ， 


2.\watch 反 复 执 行当 前 SQL 
\watch 元 命令 会 反复 执行 当前 查询 缓冲 区 的 


SQL 命 令 ， 直 到 SQL 被 中 止 或 执行 失败 ， 语 法 如 
下 : 


\watch [ seconds | 


seconds 表 示 两 次 执行 间 陋 的 时 间 ， 以 秘 为 单 
位 ， 默 认为 2 秒 ， 例 如 ， 每 隔 一 秒 反 复 执 行 now () 
负数 和合 询 当 前 时 间 : 











mydb=> SELECT now( ); 
now 


2017-08-14 11:20:02.157567+08 
(1 row) 


mydb=> \watch 1 
Mon 14 Aug 2017 11:20:04 AM CST (every 1s) 


2017-08-14 11:20:04.299584+08 
(1 row) 


Mon 14 Aug 2017 11:20:05 AM CST (every 1s) 


2017-08-14 11:20:05.300991+08 


以 上 设置 是 每 秒 执行 一 次 now () 命令 。 
3.Tab 键 自动 补 全 


psql 对 Tab 键 上 自动 补 全 功能 的 支持 是 一 个 很 赞 的 
特性 ， 能 够 在 没有 完全 记 住 数据 库 对 象 名 称 或 者 
SQL 命 令 语 法 的 情况 下 使 用 ， 帮 助 用 户 轻 松 地 完成 
各 项 数据 库 维护 工作 。 例 如 ， 奉 询 mydb 库 中 某 个 
test 打 头 的 表 ， 但 不 记得 具体 表 名 ， 可 以 输入 完 test 








字符 后 按 Tab 键 ，psql 会 提示 以 字符 test 打 头 的 表 ， 


如 下 所 示 : 


mydb=> SELECT * FROM test_ 
test_1 test_2 test_copy test_per1 


mydb=> SELECT * FROM test_ 
DDL 也 是 支持 Tab 键 自动 补 全 的 ， 如 下 所 示 : 


mydb=> ALTER TABLE test_1 DROP CO 
COLUMN CONSTRAINT 
mydb=> ALTER TABLE test_1 DROP CO 


4. 文 持 箭 头 键 上 下 翻 历史 SQL 命令 
psq] 文 持 箭头 键 上 下 翻 历史 SQL 命令 ， 非 负 方 
便 ， 如 下 所 示 : 
[postgres@pghost1 ~]$ psql mydb pguser 


psql (10.0) 


Type "help" for help. 
mydb=> SELECT count(*) FROM pg_stat activity ; -- 这 里 使 用 箭头 键 上 





想 要 psq] 文 持 盘 头 键 上 下 翻 历史 SQL 命令 ， 在 
编译 安装 PostgreSQL 时 需 打 开 readline 选 项 ， 这 个 选 
项 在 编译 PostgreSQL 时 默认 打开 ， 也 可 以 在 编译 时 
加 上 --without-readline 选 项 关闭 readline， 但 不 推 
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神 


5.psq] 客 户 站 提示 符 


以 下 命令 显示 了 psql 客 户 端 提示 
从 ，“postgres=#” 是 默认 的 客户 问 提 示 符 : 


[postgres@pghost1 ~]$ psql 
psql (10.0) 
Type "help" for help. 


postgres=# 


用 户 可 根据 喜好 设置 psql] 客 户 问 提 示人 符 ，psql 
提供 一 系列 选项 供用 户 选 择 并 设置 ， 和 常用 选项 如 
下 : 

. 0%0M: 数据 库 服 务 器 别名 ， 不 是 指 主机 名 ， 
显示 的 是 psql 的 -h 参 数 设置 的 值 ; 当 连 接 建 立 在 
Unix 域 套 接 字 上 时 则 是 [local]。 

. %0>: 数据 库 服 务 器 的 端口 号 。 

* %n: 数据 库 会 话 的 用 户 名 ， 在 数据 库 会 话 
期 间 ， 这 个 值 可 能 会 因为 命令 SET SESSION 
AUTHORIZATION 的 结果 而 改变 。 


. Ds 当前 数据 库 名 称 。 


.0 并: 如 果 是 超级 用 户 则 显示 Ws ， 其 他 用 
户 显示 “>”， 在 数据 库 会 话 期 间 ， 这 个 值 可 能 会 
因为 命令 SET SESSION AUTHORIZATION 的 结果 
而 改变 。 


Yop: 当前 数据 库 连 接 的 后 侣 进程 号 。 


. %R: 在 PROMPT1 中 通常 显示 “=”， 如 果 
进程 被 断 开 则 显示 !  。 


上 面 仅 介绍 了 主要 的 提示 从， 后 面 的 演示 示例 


可 参考 以 上 选项 的 解释 。 先 来 看 psq] 客 户 端 默认 
prompt1 的 配置 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql 
psql (10.0) 
Type "help" for help. 


postgres=# \echo :PROMPT1I 
%/%R%# 





元 命令 \echo 是 指 显 示 变 量 值 ，PROMPT1 是 系 
统 提 示 符 的 变量 ，PROMPT1 是 指 当 psql 等 待 新 命令 
发 出 时 的 常规 提示 符 ， 它 的 默认 设置 为 %/%R%#， 
根据 以 上 选项 参数 的 解释 很 容易 理解 %/ 指 当前 数据 
库 名 称 postgres，9%R 指 显示 字符 “=”，9%6# 显 示 字 
符 #”， 下 面 看 下 %M 选 项 ， 在 数据 库 服务 器 主机 通 
过 Unix 套 接 字 连接 ， 并 设置 PROMPT1 值 


为 %M%R%#， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql 
psql (10.0) 
Type "help" for help. 


postgres=# \set PROMPT1 '%M%R%#" 
[local]=# 





这 时 ，psql 客 户 闹 演示 [local]， 接 下 来 在 
pghost2 主 机 上 远程 连接 pghost1 上 的 库 测 试 ， 并 设 
置 PROMPT1 变 量 值 为 “%M%R%#”， 如 下 所 示 : 





[postgres@pghost2 ~]$ psql -h 192.168.28.74 mydb pguser -p 192 
Password for user pguser: 

psql (10.0) 

Type "help" for help. 


mydb=> \set PROMPT1  '%M%R%#" 
192.168.28.74=> 


从 上 面 看 到 ， 设 置 PROMPT1 变 量 值 
为 “%M%R%#' 字 符 后 ， 显 示 了 192.168.28.74 的 IP 地 
址 ， 正 好 为 psql 参 数 -h 的 值 。 接 下 来 演示 稍 复 杂 点 
的 设置 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ psql -h 192.168.28.74 mydb pguser -p 192 
Password for user pguser: 

psql (10.0) 

Type "help" for help. 


mydb=> \set PROMPT1 '%/@%M:%>%R%#" 
mydb@192.168.28.74:1921=> 


这 时 将 PROMPT1 设 置 成 “%/@%M: 
%>%R%#”，“%>” 是 指数 据 库 端口 号 ， 其 他 选项 之 
前 已 介 绍 过 ， 根 据 实践 也 非常 好 理解 ， 设 置 好 
ES， 可 以 将 PROMPT1 的 设置 命令 
写 到 客户 端 主机 操作 系统 用 户 家 目录 的 . psqlrc 文 件 
中 ， 关 于 .psqlrc 文 件 在 2.2.7 节 中 有 详细 介绍 ， 在 客 
户 问 主机 操作 系统 用 户 家 目录 创建 .psqlrc 文 件 并 写 
入 以 下 代码 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ touch .psqlrc 
[postgres@pghost2 ~]$ vim .psqlrc 
\set PROMPT1 '%/@%M:%>%RN%#" 





再 次 登录 验证 ， 代 码 已 生效 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ psql -h 192.168.28.74 mydb pguser -p 192 
Password for user pguser: 

psql (10.0) 

Type "help" for help. 


mydb@192.168.28.74:1921=> 


用 户 可 根据 目 己 的 喜好 设置 PROMPT1 并 与 
入 .psqlrc 文 件 ， psql] 和 连接 数据 库 时 会 恋 取 .psqirc 文 作 
并 执行 里 面 的 命令 。 


名 扣 示 ”psql 默 认 有 三 个 提示 符 : 
PROMPT1、PROMPT2、PROMPT3，PROMPT1 是 
指 当 psql 等 符 新 命令 发 出 时 的 常 规 提示 符 ， 这 个 提 
示 符 使 用 得 最 多 ; PROMPT2 是 指 在 命令 输入 过 程 
中 等 待 更 多 输入 时 发 出 的 提示 符 ， 例如 当 命 令 没 有 
使 用 分 号 终止 或 者 引用 没有 被 关闭 时 就 会 发 出 这 个 
提示 符 ，PROMPT2 的 默认 设置 值 与 PROMPT1 一 
样 ; PROMPT3 指 在 运行 一 个 
0 命令 并 且 需 要 在 终端 上 输入 

行 值 时 发 出 的 提示 符 。 


2.3 本章 小 结 


本 章 介 绍 了 PostgreSQL 客 户 端 连接 工具 
pgAdmin 4 和 psql 命 令 行 工具 ， 其 中 重点 介绍 了 psql 
命令 行 工 具 的 强大 功能 。 通 过 学 习 本 章 内 容 ， 读 者 
一 方面 了 解 到 pgAdmin 4 的 基本 用 法 ， 另 一 方面 了 
解 到 psql 工 具 的 主要 功能 ， 比 如 元 命令 、 数 据 导入 
导出 、 执 行 SQL 脚本 、 辜 参数 执行 脚本 、 定 制 维护 
脚本 等 ， 熟 练 掌握 psql 能 够 提高 数据 库 管 理工 作 效 
进 阶 篇 章节 的 阅读 奠定 了 
茶 仙 。 





第 3 草 ”数据 类 型 


本 间 将 介绍 PostgreSQL 的 数据 类 型 。 
PostgreSQL 的 数据 类 型 非常 丰富 ， 本 章 将 介绍 常规 
数据 类 型 和 一 些 非常 规 数据 类 型 ， 比 如 第 规 数据 类 
型 中 的 数字 类 型 、 字 符 类 型 、 日 期 /时 间 类 型 等 ， 非 
第 规 数据 类 型 中 的 布尔 类 型 、 网 络 地 址 类 型 、 数 组 
类 型 、 范 围 类 型 、jsom/jsonb 类 型 等 。 介 绍 数据 类 型 
的 同时 也 介绍 数据 类 型 相关 操作 符 和 函数 ， 以 及 数 
据 类 型 转换 。 








3.1 数字 类 型 


PostgreSQL 文 持 的 数字 类 型 有 整数 类 型 、 用 户 
指定 精度 类 型 、 浮 点 类 型 、serial 类 型 。 


3.1.1 数字 类 型 列表 


PostgreSQL 文 持 的 数字 类 型 如 表 3-1 所 示 。 


表 3-1 数字 类 型 列表 
| 有 过 


smallint 32 768 到 +32 767 

integer -2 147 483 648 到 +2 147 483 647 

bigint -9 223 372 036 854 775 808 到 +9 223 372 036 854 775 807 
decimal 小 数 点 前 131 072 位 ; 小 数 点 后 16 383 位 

numeric 小 数 点 前 131 072 位 ; 小 数 点 后 16 383 位 

real 6 位 十 进 制 精度 








类 型 名 称 
double precision 15 位 十 进 制 精 度 
smallserial 1 到 32 767 


serial 1 到 2 147 483 647 





bigserial 1 到 9 223 372 036 854 775 807 


smallint、integer、bigint 都 是 整数 类 型 ， 存 储 
一 定 苑 围 的 整数 ， 超 出 范围 将 会 报错 。smallint 存 储 
2 字 节 整数 ， 字 段 定 义 时 可 写成 int2，integer 存 储 4 


字 节 整数 ， 支 持 的 数值 范围 比 smallint 大 ， 字 上 段 定 义 
时 可 写成 int4， 是 最 常用 的 整数 类 型 ，bigint 存 储 8 

字 节 整数 ， 文 持 的 数值 范围 比 integer 大 ， 字 段 定义 
时 可 写成 int8。 对 于 大 多 数 使 用 整数 类 型 的 场景 使 

用 integer 就 够 了 ， 除 非 integer 汇 围 不 够 用 的 情况 下 

才 使 用 bigint。 定 义 一 张 使 用 integer 类 型 的 表 如 下 所 
外: 


mydb=> CREATE TABLE test_ integer (id1 integer,id2 int4) ; 
CREATE TABLE 


decimal 和 numeric 是 等 效 的 ， 可 以 存储 指定 精 
度 的 多 位 数据 ， 比 如 融 小 数位 的 数据 ， 适 用 于 要 求 
计算 准确 的 数值 运算 ， 声 明 numeric 的 语法 如 下 所 
人 小: 





NUMERIC(precision, scale) 


precision 是 指 numeric 数 字 里 的 全 部 位 数 ，scale 
是 指 小 数 部 分 的 数字 位 数 ， 例 如 18.222 的 Precision 
为 5， 而 Scale 为 3，precision 必 须 为 正 整数 ，scale 可 
以 是 0 或 整数 ， 由 于 numeric 类 型 上 的 算术 运算 相 比 
整数 类 型 性 能 低 ， 因 此 ， 如 果 两 种 数据 类 型 都 能 满 
足 业 务 需 求 ， 从 性 能 上 考虑 不 建议 使 用 numeric 数 据 


类 型 。 





real 和 double precision 是 指 浮 点 数据 类 型 ，real 
支持 4 守节 ，double precision 支 持 8 字 节 ， 浮 点 数据 
类 型 在 实际 生产 案例 的 使 用 相 比 整数 类 型 会 少 些 。 











smallserial 、serial 和 bigserial 类 型 是 指 目 增 serial 
类 型 ， 严 格 意义 上 不 能 称 之 为 一 种 数据 类 型 ， 如 下 
代码 创建 一 张 测 试 表 ， 定 义 test_serial 表 的 id 字段 为 


Serial 类 型 : 





mydb=> CREATE TABLE test_serial (id serial,flag text) 
CREATE TABLE 





查看 表 test_serial 的 表 结 构 ， 如 下 所 示 : 





mydb=> \d test_ serial 
Table "pguser.test serial" 


Column | Type | Collation | Nullable | 

i FE 
id | integer | | not null | nextval('test_se 
flag | text | | | 








以 上 显示 id 字段 使 用 了 序列 test_serial_id_seq， 
插入 表 数 据 时 可 以 不 指定 serial 字 段 名 称 ， 将 自动 使 
用 序列 值 填充 ， 如 下 所 示 : 





mydb=> INSERT INTO test_serial(flag) VALUES ('a'); 
INSERT © 1 
mydb=> INSERT INTO test_serial(flag) VALUES ('b'); 
INSERT © 1 


mydb=> INSERT INTO test_serial(flag) VALUES ('c'); 
INSERT © 1 
mydb=> SELECT * FROM test_ serial; 

id | flag 





3.1.2 ”数字 类 型 操作 符 和 数学 函数 





PostgreSQL 文 持 数 字 类 型 操作 符 和 丰富 的 数学 
函数 ， 例 如 支持 加 、 减 、 乘 、 除 、 模 取 余 操作 符 ， 
如 下 上 所 示 : 








mydb=> SELECT 1+2,2*3,4/2,8%3; 
?column? | ?column? | ?column? | ?column? 





按 模 取 余 如 下 所 示 : 





mydb=> SELECT mod(8,3); 
mod 





四 全 五 入 函数 如 下 所 示 : 





mydb=> SELECT round(10.2),round(10.9); 
round | round 








返回 大 于 或 等 于 给 出 参数 的 最 小 整数 ， 如 下 所 


区 


和 仆 : 





mydb=> SELECT ceil(3.6),ceil(-3.6); 
ceil | ceil 








返回 小 于 或 等 于 给 出 参数 的 最 大 整数 ， 如 下 所 


PN 


和 仆 : 





mydb=> SELECT floor(3.6), floor(-3.6); 
floor | floor 








本 节 介 绍 PostgreSQL 文 持 的 字符 类 型 ， 并 且 介 
绍 常用 的 字符 类 型 函数 。 





PostgreSQL 文 持 的 字符 类 型 如 表 3-2 所 示 。 


表 3-2 学 符 数 据 类 型 列表 


字符 类 型 名 称 描 述 
character varying(n), varchar(n) 变 长 ,字符 最 大 数 有 限制 
character(n). char(n) 定 长 ,字符 数 没 达到 最 大 值 则 使 用 空白 填充 
text 变 长 ， 无 长 度 限制 


A 


character varying (n) 存储 的 是 变 长 字符 类 
型 ，n 是 一 个 正 整 数 ， 如 果 存 储 的 字符 串 长 度 超出 n 
则 报错 ;如 果 存 储 的 字符 串 长 度 比 n 小 ，character 
varying Cn) 仅 存 储 字符 串 的 实际 位 数 。 
character Cn) 存储 定 长 字符 ， 如 果 存 储 的 字符 串 长 
度 超出 n 则 报错 ;如 果 存 储 的 字符 串 长 度 比 nD 小 ， 则 
用 空白 填充 。 为 了 验证 此 特性 ， 下 面 做 个 实验 ， 创 
建 一 张 测试 表 ， 并 插入 一 条 测试 数据 ， 代 码 如 下 所 
八 \: 








mydb=> CREATE TABLE test_char(col1 varchar (4),col2 character ( 
CREATE TABLE 

mydb=> INSERT INTO test_char(col1,col2) VALUES ('a','a'); 
INSERT © 1 





表 test_char 的 字段 coll 类 型 为 character 
varying (4) ，col2 类 型 为 character (4) ， 接 下 来 
计算 两 个 字段 值 的 字符 串 长 上 度 ， 代 人 码 如 下 所 示 : 








mydb=> SELECT char_length(col1),char_length(col2) FROM test_ch 
char_length | char_length 
se EE en nn Ee i ey 
1 | 1 











char_length (string) 显示 字符 串 字 符 数 ， 从 上 
面 结果 可 以 看 出 字符 串 长 度 都 为 1， 接 着 全 看 两 字 
段 实 际 占 用 的 物理 空间 大 小 ， 代 码 如 下 所 示 : 














mydb=> SELECT octet_length(col1),octet_length(col2) FROM test_ 
octet_length | octet_length 
和 和 
1 | 4 
(1 row) 





octet_length (string) 显示 字符 串 占 用 的 字 节 
数 ，col2 字 段 占 用 了 4 个 字 节 ， 正 好 是 col2 字 段 定 义 
的 character 长 度 。 


值得 一 提 的 是 character varying Cn) 类 型 如 果 
不 声明 长 度 ， 将 存储 任意 长 度 的 字符 串 ， 而 
character Cn) 如 果 不 声 明 长 度 则 等 效 于 


character (1) 。 
text 字 符 类 型 存储 任意 长 度 的 字符 串 ， 和 没有 


声明 字符 长 度 的 character varying 字 符 类 型 几乎 没有 
差别 。 





地 提示 ” PostgreSQL 支持 最 大 的 字段 大 小 为 
1GB， 虽 然 文 档 上 说 没有 声明 长 度 的 character 
vatying 和 text 都 支持 任意 长 度 的 字符 串 ， 但 仍 受 最 大 
字段 大 小 1GB 的 限制 ; 此 外 ， 从 性 能 上 考虑 这 两 种 
字符 类 型 几乎 没有 差别 ， 只 是 character (n) 类 型 当 
存储 的 字符 串 长 度 不 够 时 会 用 空白 填充 ， 这 将 带 来 
存储 空间 一 定 程 度 的 浪费 ， 使 用 时 需 注 意 。 


3.2.2 ”字符 类 型 函数 


PostgreSQL 文 持 丰 是 的 字符 函数 ， 下 面 举例 说 
明 。 


计算 字符 串 中 的 字符 数 ， 如 下 所 示 : 





mydb=> SELECT char_ length( abcd ' ) ， 
char_length 


(1 row) 








计算 字符 串 占 用 的 字 市 数 ， 如 下 所 示 : 





mydb=> SELECT octet_length('abcd"'); 
octet_length 








指定 字符 在 字符 串 的 位 置 ， 如 下 所 示 : 





mydb=> SELECT position('a' in 'abcd'); 
position 











提取 字符 串 中 的 子 串 ， 如 下 所 示 : 





mydb=> SELECT substring('francs' from 3 for 4); 
substring 





拆 分 字符 串 ，split_part 疯 数 语法 如 下 : 





split _ part(string text, delimiter text, field int) 





根据 delimiter 分 隅 符 拆 分 字符 串 string， 并 返回 
指定 字段 ， 字 段 从 1 开始 ， 如 下 所 示 : 





mydb=> SELECT SpJlit_part('abcQdef1onb ' ，'Q@' ,2) 
split_part 


3.3 时间/ 日 期 类 型 


PostgreSQL 对 时 | 则 、 日 期 数据 类 型 的 支持 丰富 
而 灵活 ， 本 节 介 绍 PostgreSQL 支 持 的 时 间 、 日 期 类 
型 ， 及 其 操作 符 和 第 用 函数 。 


3.3.1 时 间 / 日 期 类 型 列表 


” ”PostgreSQL 文 持 的 时 间 、 日 期 类 型 如 表 3-3 所 
示 。 


表 3-3 时间、 日 期 数据 类 型 列表 
字符 类 型 名 称 描述 


timestamp [ (p) ] [ without time zone ] 包括 日 期 和 时 间 ， 不 带 时 区 ， 简 写成 timestamp 
timestamp [ (p) ] with time zone 包括 日 期 和 时 间 ， 带 时 区 ， 简 写成 timestamptz 
date 日 期 ， 但 不 包含 一 天 中 的 时 间 

time [ (p) ] [ without time zone ] 一 天 中 的 时 间 ， 不 包含 日 期 ， 不 带 时 区 

time [ (p) ] with time zone -天 中 的 时 间 ， 不 包含 日 期 ， 带 时 区 

interval [ fields ] [ (p)] 时 间 间 陋 


我 们 通过 一 个 简单 的 例子 理解 这 几 个 时 间 、 日 
期 数据 类 型 ， 先 来 看 看 系统 目 带 的 now 〈) 函数 ， 
now (〈) 函数 显示 当前 时 间 ， 返 回 的 类 型 为 
timestamp[ (p) ]with time zone， 如 下 所 示 : 





mydb=> SELECT now( ); 


2017-07-29 09:44:25 .493425+08 
(1 row) 








这 里 提前 介绍 下 类 型 转换 ， 本 章 最 后 一 市 将 专 
门 介绍 数据 类 型 转换 的 第 用 方法 ， 以 下 SQL 中 的 两 
个 冒号 是 指 类 型 转换 ， 转 换 成 timestamp without 


time Zone 格式 如 下 ， 注 意 返回 的 数据 变化 : 





mydb=> SELECT now()::timestamp without time zone; 
now 
2017-07-29 09:44:55.804403 
(1 row) 





转换 成 date 格 式 ， 如 下 所 示 : 





mydb=> SELECT now()::date; 
now 

2017-07-29 

(1 row) 





转换 成 time without time zone， 如 下 所 示 : 





mydb=> SELECT now()::time without time zone; 
now 

09:45:49 .390428 

(1 row) 


转换 成 time with time zone， 如 下 所 示 : 





mydb=> SELECT now( ) :: 

time with time zone; 
Now 

09:45:57.13139+08 

(1 row) 








interval 指 时 间 间 隔 ， 时 间 间 隔 单 位 可 以 是 
hour、day、month、year 等 ， 举 例如 下 : 





mydb=> SELECT now(),now()+interval'1 day'; 
Now | ?column? 


2017-07-29 09:47:26.026418+08 | 2017-07-30 09:47:26.026418+08 
(1 row) 





通过 以 上 几 个 示例 读者 应 该 对 时 间 、 日 期 数据 
类 型 有 了 初步 的 了 解 ， 值 得 一 提 的 是 时 间 类 型 中 的 
(p) 是 指 时 间 精 度 ， 有 其 体 指 秒 后 面 小 数 点 保留 的 
2 明 精 度 默 认 值 为 6， 以 下 示例 声明 
精度 为 0: 








mydb=> SELECT now(), now()::timestamp(0); 
Now | Now 


2017-07-29 09:59:42.688445+08 | 2017-07-29 09:59:43 
(1 row) 


二 一 


3.3.2 时间/ 日 期 类 型 操作 符 


时 间 、 日 期 数据 类 型 支持 的 操作 符 有 加 、 减 、 
乘 、 除 ， 下 面 举例 说 明 。 


日 期 相 加 ， 如 下 所 示 : 





mydb=> SELECT date '2017-07-29' + interval'1 days'; 
?column? 
2017-07-30 00:00:00 
(1 row) 





日 期 相 减 ， 如 下 所 示 : 





mydb=> SELECT date '2017-07-29' - interval'1 hour'; 
?column? 
2017-07-28 23:00:00 
(1 row) 





日 期 相 乘 ， 如 下 所 示 : 





mydb=> SELECT 100* interval '1 second'; 
?column? 


00:01:40 
(1 row) 


ee | 


日 期 相 除 ， 如 下 所 示 : 


mydb=> SELECT interval '1 hour' / double precision '3'， 
?column? 


00:20:00 
(1 row) 


3.3.3 ” 时间/ 日 期 类 型 稼 用 函数 


接 下 来 演示 时 间 、 日 期 常用 函数 。 
显示 当前 上 时间， 如 下 所 示 : 





mydb=> SELECT current_date, current_ time,; 


current_date | current_time 
le es 

2017-07-29 | 10:53:10.375374+08 
(1 row) 


妨 一 个 非常 重要 的 函数 为 EXTRACT 了 函数， 可 
0 _ 时间 数 冯 类 到 中 抽取 年 、 月 、 日 、 时 、 
、 秒 信息 ， 语 法 如 下 所 示 : 


EXTRACT(field FROM source) 


field 值 可 以 为 century、year、month、day、 


hour、minute、second 等 ，source 类 型 为 timestamp、 
time、interval 的 值 的 表达 式 ， 例 如 取 年 份 ， 代 人 码 如 
下 所 示 : 





mydb=> SELECT EXTRACT( year FROM now()); 
date_part 








对 于 timestamp 类 型 ， 取 月 份 和 月 份 里 的 第 几 
天 ， 代 码 如 下 所 示 : 





mydb=> SELECT EXTRACT( month FROM now()),EXTRACT(day FROM now( 
date_part | date part 





取 小 时 、 分 钟 ， 如 下 所 示 : 





mydb=> SELECT EXTRACT( hour FROM now()), extract (minute FROM 
date_part | date part 





取 秒 ， 如 下 所 示 : 





mydb=> SELECT EXTRACT( second FROM now( ) ) ; 


date_part 


43.031366 
(1 row) 





取 当 前 日 期 所 在 年 份 中 的 第 几 周 ， 如 下 所 示 : 





mydb=> SELECT EXTRACT( week FROM now()); 
date_part 








当天 属于 当年 的 第 几 天 ， 如 下 所 示 : 





mydb=> SELECT EXTRACT( doy FROM now( ) ) ; 
date_part 


(1 row) 


[ee | 


前 三 小 节 介 绍 了 PostgreSQL 支 持 的 数字 类 型 、 
字符 类 型 、 时 间 日 期 类 型 ， 这 些 数 据 类 型 是 关系 型 
数据 库 的 常规 数据 类 型 ， 此 外 PostgreSQL 还 支持 很 
多 非 第 规 数据 类 型 ， 比 如 布尔 类 型 、 网 络 地 址 类 
型 、 数 组 类 型 、 范 围 类 型 、jsomjsonb 类 型 等 ， 从 这 
一 节 开 始 将 介绍 PostgreSQL 文 持 的 非常 规 数据 类 
型 ， 本 节 介 绍 布尔 类 型 ，PostgreSQL 支 持 的 布尔 类 
型 如 表 3-4 所 示 。 


表 3-4 布尔 数据 类 型 





字符 类 型 名 称 存储 长 度 描 述 





true 状 态 的 有 效 值 可 以 是 TRUE、t、true、y、 
yes、on、1; false 状 态 的 有 效 值 为 FALSE、f 
false、n、no、off、0， 首 先 创 建 一 张 表 来 进行 泪 
未 ， 如 下 所 示 : 





mydb=> CREATE TABLE test_ boolean(cola boolean,colb boolean); 
CREATE TABLE 

mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('true','fa 
INSERT © 1 

mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('t','f'"); 
INSERT © 1 

mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('TRUE','FA 
INSERT © 1 


mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('yes','no' 
INSERT © 1 
mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('y','n'); 
INSERT © 1 
mydb=> INSERT INTO test_boolean (cola,colb) VALUES ('1','0'); 
INSERT © 1 
mydb=> INSERT INTO test_boolean (cola,colb) VALUES (null,null) 
INSERT © 1 





得 询 表 test boolean 数 据 ， 尽 管 有 多 样 的 true、 
false 状 态 输入 值 ， 查 询 表 布尔 类 型 字段 时 true 状 态 
显示 为 t，false 状 态 显 示 为 f， 并 且 可 以 插入 NULEL 字 
符 ， 奏 询 结果 如 下 所 示 : 











mydb=> SELECT * FROM test_ boolean ，; 
cola | colb 


(7 rows) 


ee | 


3.5 ”网 络 地 址 类 型 


当 有 存储 IP 地 址 需求 的 业务 场景 时 ， 对 于 
PostgreSQL 并 不 很 熟悉 的 开发 者 可 能 会 使 用 字符 类 
型 存储 ， 实 际 上 PostgreSQL 提 供用 于 存储 IPv4、 
IPV6、MAC 网 络 地 址 的 专 有 网 络 地 址 数据 类 型 ， 使 
用 网 络 地 址 数据 类 型 存储 IP 地 址 要 优 于 字符 类 型 ， 
为 网 络 地 址 类 型 一 方面 会 对 数据 合法 性 进行 检 
查 ， 另 一 方面 也 提供 了 网 络 数据 类 型 操作 符 和 函数 
方便 应 用 程序 开发 。 





3.5.1 网络 地 址 类 型 列表 


”” PostgreSQL 文 持 的 网 络 地 址 数据 类 型 如 表 3-5 所 
示 。 


表 3-5 网络 地 址 数据 类 型 列表 








cldT FF 方 IPv4 和 IPv6 网 络 

inet 产生 IPv4 和 IPv6 网 络 
a se 

macaddr8 MAC 地 址 (EUI-64 格式 ) 


inet 和 cidr 类 型 存储 的 网 络 地 址 格式 为 
address/y， 其 中 address 表 示 IPv4 或 IPv6 网 络 地 址 ，y 


表示 网 络 掩 码 位 数 ， 如 果 y 省 略 ， 则 对 于 IPv4 网 络 
掩 码 为 32， 对 于 IPV6 网 络 掩 人 码 为 128， 所 以 该 值 表 
示 一 台 主 机 。 
inet 和 cidr 类 型 都 会 对 数据 合法 性 进行 检查 ， 如 
果 数 据 不 合法 会 报错 ， 如 下 所 示 : 
mydb=> SELECT '192.168.2.1000'::inet,; 


ERROR: invalid input syntax for type inet: "192.168.2.1000" 
LINE 1: select '192.168.2.1000'::inet,; 





inet 和 cidr 网 络 类 型 存在 以 下 差别 。 


1) cidr 类 型 的 输出 默认 市 子 网 掩 码 信息 ， 而 
inet 个 一 定 ， 如 下 所 示 : 


mydb=> SELECT '192.168.1.100'::cidr; 
cidr 
192.168.1.100/32 
(1 row) 


mydb=> SELECT '192.168.1.100/32'::inet; 
inet 
192.168.1.100 
(1 row) 


mydb=> SELECT '192.168.0.0/16'::inet,; 
inet 
192.168.0.0/16 
(1 row) 


2) cidr 类 型 对 IP 地 址 和 子 网 掩 码 合 法 性 进行 检 
丰 而 inet 不 会 ， 如 下 所 示 : 


mydb=> SELECT '192.168.2.0/8'::cidr; 

ERROR: invalid cidr value: "192.168.2.0/8" 
LINE 1: select '192.168.2.0/8'::cidr; 

DETAIL: Value has bits set to right of mask ， 


mydb=> SELECT '192.168.2.0/8'::inet,; 
inet 
192.168.2.0/8 
(1 row) 


mydb=> SELECT '192.168.2.0/24'::cidr; 
cidr 
192 ,168.2.0/24 
(1 row) 


因此 ， 从 这 个 层面 来 说 cidr 比 inet 网 络 类 型 更 严 
说 。macaddr 和 macaddr8 存 储 MAC 地 址 ， 这 里 不 做 
介绍 


一 Ls 


3.5.2 ”网 络 地 址 操作 符 


PostgreSQL 文 持 丰 富 的 网 络 地 址 数据 类 型 操作 
符 ， 如 表 3-6 所 示 。 


表 3-6 ”网 络 地 址 数据 类 型 操作 符 












































操 作 符 描 述 举 例 
< 小 于 inet '192.168.1.5' < inet '192.168.1.6' 
< 小 于 等 于 inet '192.168.1.5' <= inet '192.168.1.5' 
= 等 于 inet '192.168.1.5' = inet '192.168.1.5' 
>= 大 于 等 于 inet '192.168.1.5' >= inet '192.168.1.5' 
> 涛 于 inet '192.168.1.5' > inet '192.168.1.4' 
<> 不 等 于 inet '192.168.1.5' <> inet '192.168.1.4' 
<< 被 包含 inet '192.168.1.5' << inet '192.168.1/24' 
<<= 被 包含 或 等 于 inet '192.168.1/24' <<= inet '192.168.1/24' 
>> 包含 inet '192.168.1/24' >> inet '192.168.1.5' 
>>= 含 或 等 于 inet '192.168.1/24' >>= inet '192.168.1/24' 
&& 包含 或 被 包含 inet '192.168.1/24' && inet '192.168.1.80/28' 
~ 按 位 取 反 ~ inet '192.168.1.6' 
& 按 位 与 inet '192.168.1.6' & inet '0.0.0.255' 
| 按 位 或 inet '192.168.1.6' | inet '0.0.0.255' 
+ 加 inet '192.168.1.6' + 25 
- 减 inet '192.168.1.43' - 36 
- 减 inet '192.168.1.43' - inet '192.168.1.19 





3.5.3 网络 地 址 函数 


PostgreSQL 了 网络 地 址 类 型 文 持 一 系列 内 置 函 
数 ， 下 面 举例 说 明 。 


取 IP 地 址 ， 返 回 文本 格式 ， 如 下 所 示 : 





mydb=> SELECT host(cidr '192.168.1.0/24'); 
host 


192.168.1.0 
(1 row) 


5 


。 取 卫 地 址 和 网 络 捧 码 ， 返 回 文本 格式 ， 如 下 所 
2] 


mydb=> SELECT text(cidr '192.168.1.0/24'); 
text 


192.168.1.0/24 
(1 row) 


。 取 网 络 地 址 子 网 掩 码 ， 返 回 文本 格式 ， 如 下 所 
外: 


mydb=> SELECT netmask(cidr '192.168.1.0/24"'); 
netmask 


255.255.255.0 


3.6 ”数组 关 型 


PostgreSQL 文 持 一 维 数 组 和 多 维 数组 ， 旬 用 的 
数组 类 型 为 数字 类 型 数组 和 字符 型 数组 ， 也 文 持 极 
举 类 型 、 复 合 类 型 数组 。 


3.6.1 ”数组 类 型 定义 


先 来 看 看 数组 类 型 的 定义 ， 创 建 表 时 在 字段 数 
据 类 型 后 面 加 方 插 号 “[]*? 即 可 定义 数组 数据 类 型 ， 
如 下 所 示 : 


CREATE TABLE test_array1 ( 
id integer, 
array_i integer[], 
array_t text[] 

); 


以 上 integer[] 表 示 integer 类 型 一 维 数 组 ，text[] 
表示 text 类 型 一 维 数组 。 


3.6.2 ”数组 类 型 值 输入 


数组 类 型 的 插入 有 两 种 方式 ， 第 一 种 方式 使 用 
化 括号 方式 ， 如 下 所 未: 


'{ vali delim val2 delim ... }' 


将 数组 元 素 值 用 花 括 写 “{}” 包 围 并 用 delim 分 隔 
符 分 开 ， 数 组 元 素 值 可 以 用 双 引 号 引用 ，delim 分 隔 
符 通 间 为 逗号 ， 如 下 所 未 : 








mydb=> SELECT '{1,2,3}'; 
?column? 





往 表 test_array1 中 插入 一 条 记录 的 代码 如 下 所 


PN 


外: 


mydb=> INSERT INTO test 光合 array_ 1 array 七 ) 
VALUES (1,'{1,2,3}','{"a" 
INSERT © 1 


数组 类 型 插入 的 第 二 种 方式 为 使 用 ARRAY 关 
键 字 ， 例 如 : 


mydb=> SELECT arrayl[1,2,3]; 
array 


往 test_array2 表 中 插入 男 一 条 记录 ， 代 人 码 如 下 
所 示 : 





mydb=> INSERT INTO test_arrayi(id,array_i,array_t) 
VALUES (2,array[4,5,6],array['d','e','f' |]); 
INSERT © 1 





表 test_array2 的 数据 如 下 所 示 : 





mydb=> SELECT * FROM test_array1l; 
id | array_i | array_t 
Se EE 
1 | {1,2,3} | {a,b,c} 
2 | {4, 5, 6} | {d,e,f} 
(2 rows) 





3.6.3 ”查询 数组 元 素 


如 末 想 得 询 数组 所 有 元 素 值 ， 得 询 数组 字 
段 名 称 即 可 ， 如 下 所 示 : 





mydb=> SELECT array_i FROM test_array1 WHERE id=1; 
array _ 工 
{1,2,3} 

(1 row) 





数组 元 素 的 引用 通过 方 括 写 “[]* 方 式 ， 数 据 下 


标 写 在 方 括号 内 ， 编 号 范围 为 1 到 n，n 为 数组 长 
度 ， 如 下 所 示 : 


mydb=> SELECT array_i[1],array _t[3] FROM test_array1 WHERE id= 
array_i | array_t 
Ss et 
1 |c 
(1 row) 


3.6.4 ”数组 元 素 的 妃 加 、 删 除 、 更 新 


PostgreSQL 数 组 类 型 文 持 数组 元 北 的 退 加 、 删 
除 与 更 新 操作 ， 数 组 元 系 的 退 加 使 用 array_append 
水 数 ， 用 法 如 下 所 示 : 





array_append(anyarray, anyelement) 


array_append 函 数 丫 数组 末端 奶 加 一 个 元 素 ， 
如 下 所 示 : 


mydb=> SELECT array_append(array[1,2,3],4); 
array_append 


2234 
(1 row) 


数据 元 际 退 加 到 数组 也 可 以 使 用 操作 符 |， 如 


I 





mydb=> SELECT array[1,2,3] || 4; 
?column? 





数组 元 素 的 删除 使 用 array_remove 也 数 ， 
array_remove 国 数 用 法 如 下 所 示 : 





array_remove(anyarray, anyelement) 





array_remove 函 数 将 移 除 数组 中 值 等 于 给 定 值 
的 所 有 数组 元 素 ， 如 下 所 示 : 





mydb=> SELECT arrayl[1,2,2,3],array_remove(array[1,2,2,3],2); 
array | array_remove 
三 加 
{1,2,2,3} | {1,3} 
(1 row) 





数组 元 素 的 修改 代码 如 下 所 示 : 





mydb=> UPDATE test_arrayl1 SET array_i[3]=4 WHERE id=1 ; 
UPDATE 1 





整个 数组 也 能 被 更 新 ， 如 下 所 示 : 





mydb=> UPDATE test_arrayl1 SET array_i=array[7,8,9|] WHERE id=1; 
UPDATE 1 





3.6.5 ”数组 操作 符 


PostgreSQL 数 组 元 系 文 持 丰 是 操作 符 ， 如 表 3-7 
所 示 。 


表 3-7 数组 操作 符 


操作 符 | 和 时 
EE ES 


ARRAY[1.2,.3] <> ARRAYT[1,2,4] 


ARRAY[1,2,3] < ARRAY[1,2,4] 


> we ARRAY[1,4,3] > ARRAY[1.2.4] 





ARRAY[1,2,3] <= ARRAY[1,2,3] 
ARRAY[1.4.3] >= ARRAY[1.4,3] 
ARRAY[1.4.3] @> ARRAY[3.1] 


可 ARRAY[2 7] < ARRAYI1 7A 





KK 重合 (具有 公共 元 素 ) “| ARRAY[1,4,3] && ARRAY[2,1] 

| 数组 和 数组 串 接 ARRAY[1.2.3] | ARRAY[4.5.6] | 

| 数组 和 数组 串 接 ARRAY[1.2,3] | ARRAY[[4.5.6].[7.8,9]] {{1,2,3}, 
| 元 素 和 数组 串 接 3 || ARRAYT[4,5,6] {3,4,5,6} 
| 数组 和 元 来 让 接 567 





3.6.6 ”数组 函数 
PostgreSQL 文 持 丰 是 的 数组 函数 ， 给 数组 添加 


元 素 或 删除 元 素 ， 如 下 所 示 : 





mydb=> SELECT array_append(array[1,2],3),array_remove(arrayl[1, 
array_append | array_remove 
{1,2,3} | {1} 

(1 row) 





获取 数组 维度 ， 如 下 所 示 : 





mydb=> SELECT array_ndims(arrayl[1,2]); 
array_ndims 





获取 数组 长 度 ， 如 下 所 示 : 





mydb=> SELECT array_length(array[1,21],1); 
array_length 





返回 数组 中 某 个 数组 元 素 第 一 次 出 现 的 位 置 ， 
如 下 上 所 示 : 





mydb=> SELECT array_position(array['a','b','c','d'],'d'); 
array_position 


4 
(1 row) 


数组 元 率 蔡 换 可 使 用 函数 array_replace， 语 法 
如 下 : 


array_replace(anyarray, anyelement, anyelement) 


函数 返回 值 类 型 为 anyarray， 使 用 第 二 个 
anyelement 符 换 数 组 中 的 相同 数组 元 了 系 ， 如 下 所 
人 小: 





mydb=> SELECT array_replace(array[1,2,5,4],5,10); 
array_replace 


{1,2,10,4} 
(1 row) 


将 数组 元 系 输 出 到 字符 串 ， 可 以 使 用 
array_to_string 疯 数 ， 语 法 如 下 : 


atray_to_string(anyarray, text [, text|]) 


函数 返回 值 类 型 为 text， 第 一 个 text 参 数 指 分 隔 
符 ， 第 二 个 text 表 示 将 值 为 NULEL 的 元 素 使 用 这 个 字 
符 串 替换 ， 示 例如 下 : 





一 


mydb=> SELECT array_to_string(array[1,2,null,3],',','10"'); 
array_to_string 


类 型 


本 


3.7 范 





光 围 类 型 包含 一 个 范围 内 的 数据 ， 第 见 的 范围 
数据 类 型 有 日 期 范围 类 型 、 整 数 范围 类 型 等 ， 范 围 
类 型 提供 丰富 的 操作 符 和 函数 ， 对 于 日 期 安排 、 价 
格 范围 应 用 场景 比较 适用 。 








3.7.1 范围 类 型 列表 


PostgreSQL 系 统 提供 内 置 的 范围 类 型 如 下 : 
` int4range 一 integet 范 围 类 型 
` int8range 一 bigint 范 围 类 型 
numrange 一 numetic 范 围 类 型 
` tsfange 一 不 带 时 区 的 tmestamp 范 围 类 型 
' tstzfange 一 带 时 区 的 timestamp 范 围 类 型 
daterange 一 date 范 围 类 型 


用 户 也 可 以 通过 CREATE TYPE 命 令 自 定义 范 
围 数据 类 型 ，integer 范 围 类 型 举例 如 下 : 


mydb=> SELECT int4range(1,5); 
int4range 





以 上 定义 1 到 5 的 整数 范围 ，date 范 围 类 型 举例 
如 下 : 





mydb=> SELECT daterange('2017-07-01','2017-07-30"'); 
daterange 


[2017-07-01,2017-07-30) 





3.7.2 ”范围 类 型 边界 
类 


每 一 个 范围 闫 型 都 包含 下 界 和 上 界 ， 方 括 
号 “[ 表 示 包 含 下 界 ， 圆 括号 ” ”表示 排除 下 界 ， 方 
括 写 “表示 包含 上 界 ， 圆 括 写 <) ”表示 排除 上 界 ， 
也 就 是 说 方 括号 表示 边界 点 包含 在 内 ， 圆 括 写 表示 
边界 点 不 包含 在 内 ， 范 围 类 型 值 的 得 入 有 以 下 几 种 
模式 : 























(lower -bound, upper-bound) 
(lower -bound, upper-bound] 
[lower-bound, upper-bound) 
[Lower-bound,upper-bound ] 
empty 


ee | 


注意 empty 表 示 空 范围 类 型 ， 不 包含 任何 元 
素 ， 看 下 面 这 个 例子 : 





mydb=> SELECT int4range(4,7); 
int4range 





以 上 表示 包含 4、5、6， 但 不 包含 7， 标准 的 范 
围 类 型 为 下 界 包含 同时 上 界 排除 ， 如 下 所 示 : 


mydb=> SELECT int4range(1,3); 
int4range 





以 上 没有 指定 数据 类 型 边界 模式 ， 指 定 上 界 
为 “*?， 如 下 所 示 : 





mydb=> SELECT int4range(1,3,'[]'); 
int4range 


虽然 指定 上 办 人 人”， 但 上 界 依然 显示 为 ") ”， 这 
征 范 围 类 型 标准 的 边界 模式 ， 即 下 界 包 合同 时 上 界 


排除 ， 这 点 需要 注意 。 
3.7.3 ”范围 类 型 操作 人 符 
本 节 介 绍 常 见 的 范围 类 型 操作 符 
句 仿 
已 总 


元 素 操 作 符 ， 如 下 所 未 : 





mydb=> SELECT int4range(4,7) @> 4; 
?column? 


(1 row) 





包含 范围 操作 符 ， 如 下 所 示 : 





mydb=> SELECT int4range(4,7)@>int4range(4,6); 
?column? 





等 于 操作 符 ， 如 下 所 示 : 





mydb=> SELECT int4range(4,7)=int4range(4,6,'[]'); 
?column? 


其 中 “@>” 操 作 符 在 范围 数据 类 型 中 比较 毅 
用 ， 第 用 来 得 询 范 围 效 据 类 型 是 否 包含 茶 个 指定 元 
素 ， 由 于 篇 幅 关 系 ， 其 他 范围 数据 类 型 操作 人 符 这 里 
人 不 演示 了 了 。 











3.7.4 范围 类 型 函数 





以 下 列举 范围 类 型 肖 用 函数 ， 例 如 ， 取 范围 下 
界 ， 如 下 所 示 : 


mydb=> SELECT lower(int4range(1,10)); 
lower 





取 范 围 上 界 ， 如 下 所 示 : 


mydb=> SELECT upper(int4range(1,10)); 
Upper 








江 围 是 合 为 空 ? 示例 如 下 : 


mydb=> SELECT isempty(int4range(1, 10)); 
isempty 


(1 row) 


3.7.5 给 范围 类 型 创建 索引 





范围 类 型 数据 支持 创建 GiST 索 引 ，GiST 索 引 支持 
的 操作 符 有 “=”&&”*“<@”@>”<<” >>” -|-”"& 
<”&>” 等 ，GiST 有 索引 创 建 举 例如 下 : 


CREATE INDEX Idx_ip_address_range ON ip_address USING gist ( i 


3.8 jsomjsonb 类 型 


PostgreSQL 不 只 是 一 个 关系 型 数据 库 ， 同 时 它 
还 支持 非 关 系数 据 类 型 json (JavaScript Object 
Notation ) ，json 属 于 重量 级 的 非常 规 数据 类 型 ， 本 
节 将 介绍 json 类 型 、json 与 jsonb 产 异 、json 与 jsonb 
J 以 及 jsonb 键 值 的 退 加 、 删 除 、 更 
新 。 


3.8.1 ”json 类 型 简介 


PostgreSQL 早 在 9.2 版 本 已 经 提供 了 json 类 型 ， 
并 且 随 着 大 版 本 的 演进 ，PostgreSQL 对 json 的 支持 
趋 于 完善 ， 例 如 提供 更 多 的 json 函 数 和 操作 符 方 便 
应 用 开发 ， 一 个 简单 的 json 类 型 例子 如 下 : 


mydb=> SELECT '{"a":1,"b":2}'::json; 
json 


为 了 更 好 地 演示 json 类 型 ， 接 下 来 创建 一 张 
表 ， 如 下 所 示 : 


mydb=> CREATE TABLE test_ jsoni (id serial primary key,name jso 


CREATE TABLE 





以 上 示例 定义 字段 name 为 json 类 型 ， 插 入 表 数 
据 ， 如 下 所 示 : 





mydb=> INSERT INTO test_jsoni (name) 
VALUES ('{"col1":1,"col2":"francs", "col3":"male"}' ); 
INSERT © 1 


mydb=> INSERT INTO test_jsoni (name) 
VALUES ('{"col1":2,"col2":"fp", "col3":"female"}'); 
INSERT © 1 





查询 表 test_json1 数 据 ， 如 下 所 示 : 





mydb=> SELECT * FROM test_jsoni; 
id | name 


1 {"col1":1,"col2":"francs", "col3":"male"} 
2 {"col1":2,"col2":"fp","col3":"female"} 





3.8.2 ”查询 json 数 据 


通过 “->” 操 作 符 可 以 查询 json 数 据 的 键 值 ， 如 
下 所 示 : 





mydb=> SELECT name -> 'col2' FROM test_ jsoni WHERE id=1; 
?column? 


"francs" 


(1 row) 





如 果 想 以 文本 格式 返回 json 字 段 键 值 可 以 使 
用 “->>” 操 作 和 全， 如 下 所 示 : 


mydb=> SELECT name ->> 'col2' FROM test jsoni1 WHERE id=1; 
?column? 


francs 
(1 row) 


3.8.3 jsonb 与 json 欠 异 


PostgreSQL 文 持 两 种 JSON 数 据 类 型 : json 和 
jsonb， 两 种 类 型 在 使 用 上 几乎 完全 相同 ， 两 者 主要 
区 列 为 以 下 : json 存 储 格 式 为 文本 而 jsonb 存 储 格 式 
为 二 进 制 ， 由 于 存储 格式 的 不 同 使 得 两 种 json 数 据 
类 型 的 处 理 效率 不 一 样 ，json 类 型 以 文本 存储 并 且 
存储 的 内 容 和 输入 数据 一 样 ， 当 检索 json 数 据 时 必 
须 重 新 解析 ， 而 jsonb 以 二 进 制 形 式 存 储 已 解析 好 的 
数据 ， 当 检索 jsonb 数 据 时 不 需要 重新 解 机 ， 因 此 
json 写 入 比 jsonb 快 ， 但 检索 比 jsonb 慢 ， 后 面 会 通过 
测试 验证 两 者 读 写 性 能 的 差异 。 


除了 上 述 介 绍 的 区 别 之 外 ，json 与 jsonb 在 使 用 
过 程 中 还 存在 差异 ， 例 如 jsonb 输 出 的 键 的 顺序 和 输 
入 不 一 样 ， 如 下 所 示 : 








mydb=> SELECT '{"bar": "baz", "balance": 7.77, "active" :false} 
jsonb 
{"bar": "baz", "active": false, "balance": 7.77} 
(1 row) 





而 json 的 输出 键 的 顺序 和 输入 完全 一 样 ， 如 下 
所 示 : 





mydb=> SELECT '{"bar": "baz", "balance": 7.77, "active":false)} 
json 


{"bar": "baz", "balance": 7.77, "active"':false} 





另外 ，jsonb 类 型 会 去 掉 输 入 数据 中 键 值 的 空 
格 ， 如 下 所 示 : 





mydb=> SELECT ' {"id":1, "name":"francs"}'::]jsonb; 
jsonb 
{"id": 1, "name": "francs"} 
(1 row) 





上 例 中 id 键 与 mame 键 输入 时 是 有 空格 的 ， 输 出 
显示 空格 键 被 删除 ， 而 json 的 输出 和 输入 一 样 ， 不 
会 删 挥 空格 键 : 





mydb=> SELECT " {"id":1, "name":"francs"}'::json; 
json 


另外 ，jsonb 会 删除 重复 的 键 ， 仅 保留 最 后 一 


A I I 


mydb=> SELECT ' {"id":1, 
"name":"francs", 


jsonb 
{"id": 1, "name": "test", "remark": "a good guy!"} 
(1 row) 


上 面 name 键 重复 ， 仅 保留 最 后 一 个 name 键 的 


值 ， 而 json 数 据 类 型 会 你 留 重 复 的 键 值 。 


在 大 多 数 应 用 场景 下 建议 使 用 jsonb， 除 非 有 特 


殊 的 需求 ， 比 如 对 json 的 键 顺 序 有 特殊 的 要 求 。 





3.8.4 ”jsonb 与 json 操 作 符 


以 文本 格式 返回 json 类 型 的 字段 键 值 可 以 使 


用 “->>” 操 作 符 ， 如 下 所 示 : 


mydb=> SELECT name ->> 'col2' FROM test jsoni1 WHERE id=1; 
?column? 


字符 昌 是 售 作 为 顶层 键 值 ， 如 下 所 示 : 


mydb=> SELECT '{"a":1, "b":2}'::jsonb ? 'a'; 
?column? 


删除 json 数 据 的 键 / 值 ， 如 下 所 示 : 


mydb=> SELECT '{"a":1, "b":2}'::jsonb - ar; 


?coOlumn? 
{"b" 2} 
(1 row) 


3.8.5 jsonb 与 json 函 数 


json 与 jsonb 相 关 的 函数 非常 丰 宇 ， 下 面 举 例 说 
明 。 





扩展 最 外 层 的 json 对 象 成 为 一 组 键 / 值 结果 集 ， 
如 下 所 示 : 


mydb=> SELECT * FROM json _ each('{"a":"foo", "b":"bar"}'); 


key | value 


i SN 
a | "foo 
b | "bar 
(2 rows) 


以 文本 形式 返回 结 末 ， 如 下 所 示 : 


mydb=> SELECT * FROM json _ each text('{"a":"foo", "b":"bar"}'); 
key | value 


Rt ee 
a | foo 
b | bar 

(2 rows) 


一 个 非常 重要 的 函数 为 row_to_json 〈) 函数 ， 
能 够 将 行 作 为 json 对 象 返回 ， 此 函数 利用 来 生成 
json 测 斌 数据 ， 比 如 将 一 个 普通 表 转 换 成 json 类 型 
表 ， 代 人 码 如 下 所 示 : 





mydb=> SELECT * FROM test_ copy WHERE id=1; 


id | name 
三 二 二 
1 |a 

(1 row) 


mydb=> SELECT row to_ json(test_ copy) FROM test_ copy WHERE id=1 
row_to_json 


{"id" : 十， "name" . "a"} 
(1 row) 


返回 最 外 层 的 json 对 象 中 的 键 的 集合 ， 如 下 所 


一 < 


外: 


mydb=> SELECT * FROM json_ object_ keys('{"a":"foo", "b":"bar"}' 
json_object_keys 


(2 rows) 





3.8.6 ”jsonb 键 / 值 的 奶 加 、 删 除 、 更 新 


jsonb 键 / 值 乙 加 可 通过 “| 操作 符 ， 例 如 增加 sex 
键 / 值 ， 如 下 所 示 : 





mydb=> SELECT '{"name":"francs","age":"31"}'::jsonb || 
'{"sex":"male"}'::]jsonb; 
?column? 


{"age": "31", "sex": "male", "name": "francs"} 


jsonb 键 /全 的 删除 有 了 两 种 方法 ， 一 种 是 通过 操 
Lo "删除 ， 另 一 种 通过 操作 符 “#? 删 除 指定 键 / 
值 ， 通 过 操作 符 “-” 删 除 键 / 值 的 代码 如 下 所 示 : 


mydb=> SELECT '{"name": "James", "email": "james@localhost"}': 
'email'; 
?column? 
{"name": "James"} 
(1 row) 


mydb=> SELECT '["red","green","blue"]'::jsonb - 0; 
?column? 


["green", "blue"] 





第 二 种 方法 是 通过 操作 符 和 #-” 删 除 指 定 键 / 值 ， 
通 间 用 于 有 退 套 json 数 据 删 除 的 场景 ， 如 下 代码 删 
除 藤 套 contact 中 的 fax 键 / 值 : 


mydb=> SELECT '{"name": "James", "contact": {"phone": "01234 5 
?column? 
{"name": "James", "contact": {"phone": "01234 567890"}} 
(1 row) 


删除 散 套 aliases 中 的 位 置 为 1 的 键 / 值 ， 如 下 所 


一 < 


和 仆 : 


mydb=> SELECT '{"name": "James", "aliases": ["Jamie", "The Jame 
?column? 
{"name": "James", "aliases": ["Jamie", "J Man"]} 
(1 row) 


键 / 值 的 更 新 也 有 两 种 方式 ， 第 一 种 方式 
为 人 "操作 符 ，“ 操 作 符 可 以 连接 json 键 ， 也 可 徐 昔 
重复 的 键 值 ， 如 下 代码 修改 age 键 的 值 : 


mydb=> SELECT '{"name":"francs","age":"31"}'::jsonb || 


"age":"32"} :jsSsonb， 
?column? 


{"age": "32", "name": "francs"} 








二 种 方式 是 通过 jsonb_set 函 数 ， 语 法 如 下 : 





jsonb_set(target jsonb, path text[], new value jsonb[，create_ 





target 指 源 jsonb 数 据 ，path 指 路 径 ，new_value 
指 更 新 后 的 键 值 ，create_missing 值 为 tue 表 示 如 果 
键 不 存在 则 添加 ，create_missing 值 为 false 表 示 如 果 
键 不 存在 则 不 添加 ， 示 例如 下 : 








mydb=> SELECT jsonb_set('{"name":"francs","age":"31"}'::jsonb, 
jsonb_set 
{"age": "32", "name": "francs"} 
(1 row) 


mydb=> SELECT jsonb_set('{"name":"francs","age":"31"}'::jsonb, 
jsonb_set 


{"age": "31", "sex": "male", "name": "francs"} 


3.9 ”数据 类 型 转换 


前 面 几 小 节 介 绍 了 PostgreSQL 常 规 数据 类 型 和 
非常 规 数据 类 型 ， 这 一 小 节 将 介绍 数据 类 型 转换 ， 
PostgreSQL 数 据 类 型 转换 主要 有 三 种 方式 : 通过 格 
式 化 函数 、CAST 函 数 、: : 操作 符 ， 下 面 分 别 介 


绍 。 


3.9.1 通过 格式 化 函数 进行 转换 


PostgreSQL 提 供 一 系列 水 数 用 于 数据 类 型 转 
换 ， 如 表 3-8 所 示 。 
表 3-8 数据 类 型 转换 函数 
函数 描述 示例 


to_char(timestamp, text) 巴 时 间 截 转换 成 字符 串 | to_char(current timestamp, 'HH12:MI:SS') 


to_char(interval, text) 也 间隔 转换 成 字符 串 to_char(interval '1Sh 2m 12s', 'HH24:MI:SS') 






to_char(int, text) p. 也 整数 转换 成 字符 串 to_char(125, '999') 

to_char(numeric, text) X 了 数字 转换 成 字符 串 to_char(-125.8, '999D99S') 

to_date(text, text) 也 字符 串 转 换 成 日 期 to_date('05 Dec 2000', DD Mon YYYY'") 
to number(text, text) 也 字符 串 转 换 成 数字 to_ number('12,454.8-', '99G999D9S') 


ti sta it | Sta 5 2000", "BD M 
to_timestamp(text, text) ee eb 耶 字符 串 转 换 成 时 间 戳 人 Spl 党 
time zone YY 


3.9.2 ”通过 CAST 函 数 进 行 转换 








将 varchar 字 符 类 型 转换 成 text 类 型 ， 如 下 所 


一 < 


外: 





mydb=> SELECT CAST(varchar'123' as text) 
text 





将 varchar 字 符 类 型 转换 成 int4 类 型 ， 如 下 所 


一 < 


外: 





mydb=> SELECT CAST(varchar'123' as int4); 
int4 





3.9.3 通过 : : 操作 符 进 行 转换 


以 下 例子 转换 成 int4 或 numeric 类 型 ， 如 下 所 


一 < 


人 外 : 





mydb=> SELECT 1::int4, 3/2::numeric,; 
int4 ?column? 


1 | 1.5000000000000000 
(1 row) 


二 一 





另 一 个 例子 ， 通 过 SQL 碍 询 给 定 表 的 字段 名 
称 ， 先 根据 表 名 在 系统 表 pg_class 找 到 表 的 OID， 其 
中 OID 为 隐藏 的 系统 字段 : 


mydb=> SELECT oid,relname FROM pg_class WHERE relname='test_js 
oid | relname 

Se a a 
16509 | test_ jsoni 

(1 row) 





之 后 根据 test_json1 表 的 OID， 在 系统 表 
pg_attribute 中 根据 attrelid 〈 即 表 的 OID ) 找到 表 的 
字段 ， 如 下 所 示 : 





mydb=> SELECT attname FROM pg_attribute WHERE attrelid='16509 
attname 


name 
(2 rows ) 





上 述 操作 需 通 过 两 步 完 成 ， 但 通过 闫 型 转换 可 
一 步 到 位 ， 如 下 所 示 : 


mydb=> SELECT attname 
FROM pg_attribute 
WHERE attrelid='test_ jsoni'::regclass AND attnum >0; 
attname 


(2 rows ) 


这 市 介绍 了 三 种 数据 类 型 转换 方法 ， 第 一 种 方 
法 兼容 性 相对 较 好 ， 第 三 种 方法 用 法 简 a 


@ i 提示 pg_class 系 统 表 存储 PostereSQL 对 象 
信息 ， 比 如 表 、 索 引 、 序 列 、 视 图 等 ，OID 是 隐藏 
字段 ， 唯 一 标识 pg_class 中 的 一 行 ， 可 以 理解 成 

pg_class 系 统 表 的 对 象 ID; pg_atttibute 系 统 表 存储 表 
的 字段 信息 ， 数 据 库 表 的 每 一 个 字段 在 这 个 视图 中 
都 有 相应 一 条 记录 ，pg_atttibute.atttelid 是 指 字 段 所 
属 表 的 OID， 正 好 和 pgclass.oid 关 联 。 


【1 人 


本 章 介 绍 了 PostgreSQL 第 规 数据 类 型 和 非常 规 
数据 类 型 ， 常 规 数据 类 型 如 数字 类 型 、 字 符 类 型 、 
时 间 / 日 期 类 型 ， 非 常规 数据 类 型 如 布尔 类 型 、 网 络 
地 址 类 型 、 数 组 类 型 、 范 围 类 型 、jsomjsonb 凑 型 ， 
同时 介绍 了 数据 类 型 相关 函数 、 操 作 符 ， 最 后 介绍 
数据 类 型 转换 的 几 种 方法 。 此 外 PostgreSQL 还 支持 
XML 类 型 、 复 合 类 型 、 对 象 标识 类 型 等 ， 由 于 篇 幅 
关系 ， 本 书 不 做 介绍 ， 有 兴趣 读者 可 参考 手册 
https:/www.postgresql.org/docs/10/static/datatype.html 
， 了 解 PostgreSQL 数 据 类 型 对 于 开发 人 员 和 DBA 都 
非常 重要 。 





第 4 章 ”SQL 噩 级 特性 


本 章 将 介绍 PostgreSQL 在 SQL 方 面 的 高 级 特 
性 ， 例 如 WITH 查 询 、 批 量 插 入 、RET-URNING 返 
回 修改 的 数据 、UPSERT、 数 据 抽样 、 聚 合 函 数 、 
窗口 函数 。 


4.1 WITH 查询 


WITH 奏 询 是 PostgreSQL 文 持 的 高 级 SQL 特性 
之 一 ， 这 一 特性 常 称 为 CTE (Common Table 
Expressions) ，WITH 查 询 在 复杂 查询 中 定义 一 个 
辅助 语句 《可 理解 成 在 一 个 查询 中 定义 的 临时 
表 ) ， 这 一 特性 第 用 于 复杂 人 查询 或 圳 归 查 询 应 用 场 


有 与 
打 o 

















4.1.1 复杂 查询 使 用 CTE 


先 通过 一 个 简单 的 CTE 示 例 了 解 WITH 查询 ， 
如 下 上 所 示 : 


WITH t as ( 
SELECT generate_ series(1,3) 


) 
SELECT * FROM 七; 


执行 结 末 如 下 : 


generate_series 


(3 rows) 


这 个 简单 的 CTE 示 例 中 ， 一 开始 定义 了 一 条 辅 
助 ; 下 句 ( 取 数 ， 之 后 在 主 查 询 语 各 中 查询 定义 的 
辅助 语句 就 像 是 定义 了 一 张 临时 表 ， 对 于 复 林 查询 
如 果 不 使 用 CTE， 可 以 通过 创建 视图 方式 简化 
SQL 。 


CTE 可 以 简化 SQL 并 且 减 少 舱 套 ， 因 为 可 以 预 
先 定义 辅助 语句 ， 之 后 在 主 查询 中 多 次 调用 。 接 着 
看 一 个 稍 复杂 CTE 例 子 ， 这 个 例子 来 自 手册 ， 如 下 
所 示 : 








WITH regional sales AS ( 
SELECT region, SUM(amount) AS total_ sales 
FROM orders 
GROUP BY region 
), top_regions AS ( 
SELECT region 
FROM regional_sales 
WHERE total sales > (SELECT SUM(total sales)/10 FROM r 


) 
SELECT region, 
product, 
SUM(quantity) AS product_units, 
SUM(amount) AS product_sales 
FROM orders 
WHERE region IN (SELECT region FROM top_regions) 
GROUP BY region, product; 


这 个 例子 首先 定义 了 regional_sales 和 
top_regions 两 个 辅助 语句 ，regional_sales 算 出 每 个 
区 域 的 总 销售 量 ，top_regions 算 出 销售 量 占 总 销售 








量 10% 以 上 的 所 有 区 域 ， 主 查询 语句 通过 辅助 语句 
与 orders 表 关联 ， 算 出 了 顶级 区 域 每 件 商 品 的 销售 
量 和 销售 额 。 


4.1.2 递归 查询 使 用 CTE 


WITH 查 询 的 一 个 重要 属性 是 RECURSIVE， 使 
用 RECURSIVE 属 性 可 以 引用 自己 的 输出 ， 从 而 实 
现 递 归 ， 一 般 用 于 层次 结构 或 树 状 结构 的 应 用 场 
景 ， 一 个 简单 的 RECURSIVE 例 子 如 下 所 示 : 








WITH recursive t (x) as ( 
SELECT 1 
UNION 
SELECT x + 1 
FROM t 
WHERE x < 5 


) 
SELECT sum(x) FROM t; 


输出 结果 为 : 
sum 
本 
(1 row) 


上 述 例子 中 x 从 1 开始 ，union 加 1 后 的 值 ， 循 环 
直到 x 小 于 5 结束 ， 之 后 计算 x 值 的 总 和 。 





接着 分 享 一 个 递归 但 询 的 案例 ， 这 个 案例 来 目 
PostgreSQL 社 区 论坛 一 位 朋友 的 问题 ， 他 的 问题 是 
这 样 的 ， 存 在 一 张 包 含 如 下 数据 的 表 : 








d name fatherid 


中 国 0 





i 
1 
2 1 
3 1 
4 沈阳 2 
5 2 
6 3 
7 
8 


沈河 区 4 





当 给 定 一 个 id 时 能 得 到 它 完 整 的 地 名 ， 例 如 当 
id=7 时 ， 地 名 是 : 中 国 辽 宁 沈 阳 和 平 区 ， 当 id=5 
时 ， 地 名 是 : 中 国 辽 宁 大 连 ， 这 是 一 个 典型 的 层次 
数据 递归 应 用 场景 ， 恰 好 可 以 通过 PostgreSQEL 的 
WITH 得 询 实现 ， 首 先 创 建 测试 表 并 插入 数据 ， 如 
下 上 所 示 : 





CREATE TABLE test_areal(id int4,name varchar(32) ,fatherid int4 ) 


INSERT INTO test_area VALUES (1，' 中 国 ' ,0); 
INSERT INTO test_area VALUES (2，' 辽 宁 ' ,1); 
INSERT INTO test_area VALUES (3，' 山 东 ' FY) 
INSERT INTO test_area VALUES (4， ' 沈 阳 " 72) 
INSERT INTO test_area VALUES (5，' 大 连 ' ;2); 
INSERT INTO test_area VALUES (6，' 济 南 ' 73 
INSERT INTO test_area VALUES (7, ' 和 平 区 ' ,4); 
INSERT INTO test_area VALUES (8， ' 沈 河 区 ' ,4); 








使 用 PostgreSQL 的 WITH 查询 检索 ID 为 7 以 及 以 
上 的 所 有 父 节 点 ， 如 下 所 示 : 





WITH RECURSIVE r AS ( 
SELECT * FROM test area WHERE id = 7 
UNION ALL 
SELECT test area.* FROM test area, r WHERE test_ area.i 


SELECT * FROM r ORDER BY id; 





查询 结果 如 下 : 





id | name | fatherid 
ee ee 


(4 rows) 





查询 结果 正好 是 ID=7 节 点 以 及 它 的 所 有 父 节 
点 ， 接 下 来 将 输出 结果 的 name 字 上 段 合 并 成 “中 国 辽 
宁 沈 阳 和 平 区 ”， 方 法 很 多 ， 这 里 通过 string_agg 忆 | 
数 实现 ， 如 下 所 示 : 





mydb=> WITH RECURSIVE r AS ( 
SELECT * FROM test area WHERE id = 7 
UNION ALL 
SELECT test area.* FROM test area, r WHERE test_area,1i 


) 
SELECT string _ agg(name,'') FROM ( SELECT name FROM r ORDER BY 
string_agg 


中 国 辽 宁 沈阳 和 平 区 


以 上 是 查找 当前 节点 以 及 当前 节点 的 所 有 父 节 
点 ， 也 可 以 查找 当前 节点 以 及 其 下 的 所 有 子 节点 ， 
需 更 改 where 和 条件， 如 得 找 沈 阳 市 及 管辖 的 区 ， 代 
码 如 下 所 示 。 








mydb=> WITH RECURSIVE r AS ( 
SELECT * FROM test_area WHERE id = 4 
UNION ALL 
SELECT test_area.* FROM test area, r WHERE test area.f 


) 
SELECT * FROM r ORDER BY id; 


id | name | fatherid 
A A a 
4 | 沈阳 | 2 
7 | 和 平 区 | 4 
8 | 沈河 区 | 4 
(3 rows) 





以 上 给 出 了 CTE 的 两 个 应 用 场景 : 复杂 查询 中 
的 应 用 和 递归 查询 中 的 应 用 ， 通 过 示例 很 容易 知道 
CTE 具 有 以 下 优点 : 


“ CITE 可 以 简化 SQL 人 代码 ， 减 少 SQL 谤 套 层 
数 ， 提 高 SQL 代 码 的 可 读 性 。 


* CTE 的 辅助 语句 只 需要 计算 一 次 ， 在 主 查 询 
中 可 以 多 次 使 用 。 


. 当 不 需要 共享 查询 结果 时 ， 相 比 视 图 更 轻 


4.2 ”批量 插入 

批量 插入 是 指 一 次 性 插入 多 条 数据 ， 主 要 用 于 
提升 数据 插入 效率 ，PostgreSQL 有 多 种 方法 实现 批 
量 插入 。 
4.2.1 方式 一 : INSERT INTO...SELECT... 

通过 表 数 据 或 函数 批量 插入 ， 语 法 如 下 : 


INSERT INTO table name SELECT.. .FROM source table 


比如 创建 一 张 表 结 构 和 user_ini 相 同 的 表 并 插入 
user_ini 表 的 全 量 数 据 ， 代 人 码 如 下 所 示 : 





mydb=> CREATE TABLE tbl _ batchi(user_id int8,user_name text); 
CREATE TABLE 


mydb=> INSERT INTO tbl batchi(user_id,user_name) 


SELECT User_id,user name FROM user_ini; 
INSERT © 1000000 


以 上 示例 将 表 user_ini 的 user id、user name 字 
段 所 有 数据 插入 表 tbl_batch1， 也 可 以 插入 一 部 分 数 
据 ， 插 入 时 指定 where 条 件 即 可 。 


通过 函数 进行 批量 插入 ， 如 下 所 未: 


mydb=> CREATE TABLE tbl_ batch2 (id int4,info text); 
CREATE TABLE 


mydb=> INSERT INTO tbl_ batch2(id,info) 
SELECT generate_series(1,5),'batch2'; 
INSERT © 5 


通过 SELECT 表 数据 批量 插入 的 方式 大 多 关系 
型 数据 库 都 支持 ， 接 下 来 看 看 PostgreSQL 文 持 的 其 
他 批量 插入 方式 。 


4.2.2 方式 二 : INSERT INTO VALUES ()， 
Ce 


PostgreSQL 的 男 一 种 支持 批量 插入 的 方法 为 在 
一 条 INSERT 语 句 中 通过 VALUES 关 键 字 插 入 多 条 
记录 ， 通 过 一 个 例子 就 很 容易 理解 ， 如 下 所 示 : 


mydb=> CREATE TABLE tbl_ batch3(id int4, Info text); 
CREATE TABLE 


mydb=> INSERT INTO tbl batch3(id,info) VALUES (1,'a'),(2,'b'), 
INSERT 0 3 


数据 如 下 所 示 : 


mydb=> SELECT * FROM tb]_batch3， 
id | info 


这 种 批量 插入 方式 非常 独特 ， 一 条 SQL 插 入 多 
行 数 据 ， 相 比 一 条 SQL 插入 一 条 数据 的 方式 能 减少 
和 数据 库 的 交互 ， 减 少数 据 库 WAL (Write-Ahead 
Logging) 日 志 的 生成 ， 提 升 插 入 效率 ， 通 第 很 少 
有 开发 人 员 了 解 PostgreSQL 的 这 种 批量 插入 方式 。 





4.2.3 方式 三 ;COPY 或 \COPY 元 命令 


2.2.3 节 介绍 了 psql 导 入 、 叶 出 表 数 据 ， 使 用 的 
是 COPY 命 令 或 \copy 元 命令 ，copy 或 \copy 元 命令 能 
够 将 一 定格 式 的 文件 数据 导入 到 数据 库 中 ， 相 比 
INSERT 命 令 插 入 效率 更 局 ， 通 向 大 数据 量 的 文件 
导入 一 般 在 数据 库 服务 问 主 机 通过 PostgreSQL 超 级 
用 户 使 用 COPY 命 令 导 入 ， 下 面 通 过 一 个 例子 简单 
看 看 COPY 命 令 的 效率 ， 测 试 机 为 一 台 物 理 机 上 的 
虚 机 ， 配 置 为 4 核 CPU，8GB 内 存 。 


肯 先 创建 一 张 测试 表 并 插入 一 干 万 数据 ， 如 下 
所 示 : 





mydb=> CREATE TABLE tbl _ batch4( 

id int4, 

info text, 

create_ time timestamp(6) with time zone default clock_ timestan 
CREATE TABLE 


mydb=> INSERT INTO tbl] batch4(id,info) SELECT n,n||'_batch4' 
FROM generate_series(1,10000000) n; 
INSERT © 10000000 





以 上 示例 通过 INSERT 插 入 一 干 万 数据 ， 将 一 
千 万 数据 导出 到 文件 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# \timing 
Timing is on. 


mydb=# COPY pguser.tbl batch4 TO '/home/pg10/tbl batch4.txt'; 
COPY 10000000 
Time: 6575.787 ms (00:06.576) 





一 干 万 数据 导出 花 了 6575 唉 秒 ， 之 后 清空 
tbl_batch4 并 将 文件 tbl_batch4.txt 的 一 干 万 数据 导入 
到 表 中 ， 如 下 所 示 : 





mydb=# TRUNCATE TABLE pguser.tbl batch4; 

TRUNCATE TABLE 

mydb=# COPY pguser.tbl batch4 FROM '/home/pg10/tbl batch4.txt' 
COPY 10000000 

Time: 15663.834 ms (00:15.664) 


ee | 


一 千 万 数据 通过 COPY 命 令 导 入 执行 时 间 为 
15663 上 毫秒 。 


4.3 ”RETURNING 返 回 修改 的 数据 


PostgreSQL 的 RETURNING 特 性 可 以 返回 DML 
修改 的 数据 ， 具 体 为 三 个 场景 : INSERT 语 句 后 接 
RETURNING 属 性 返回 插入 的 数据 ; UPDATE 语 句 
后 接 RETURNING 属 性 返回 更 新 后 的 新 值 ; 
DELETE 语 句 后 接 RETURNING 属 性 返回 删除 的 数 
据 。 这 个 特性 的 优点 在 于 不 需要 额外 的 SQL 获取 这 
些 值 ， 能 够 方便 应 用 开发 ， 下 面 通过 示例 演示 。 








4.3.1 _ RETURNING 返 回 插 入 的 数据 


INSERT 语 句 后 接 RETURNING 属 性 返回 插入 
的 值 ， 下 面 的 代码 创建 测试 表 ， 并 返回 已 插入 的 整 
行 数 据 。 

mydb=> CREATE TABLE test_ri(id serial,flag char(1)); 

CREATE TABLE 

mydb=> INSERT INTO test_ri(flag) VALUES ('a') RETURNING *; 
a 


id | fl 


(1 row) 
INSERT © 1 


RETURNING* 表 示 返 回 表 插入 的 所 有 字段 数 


据 ， 也 可 以 返回 指定 字段 ，RETURNING 后 接 字 段 
名 即 可 ， 如 下 代码 仅 返回 插入 的 id 字段 : 


mydb=> INSERT INTO test_r1i(flag) VALUES ('b') RETURNING id; 
Id 


2 
(1 row) 
INSERT © 1 


4.3.2 RETURNING 返回 更 新 后 数据 


UPDATE 后 接 RETURNING 属 性 返回 UPDATE 
语句 更 新 后 的 值 ， 如 下 所 示 : 


mydb=> SELECT * FROM test_r1 WHERE id=1; 


id | flag 
1 | a 
(1 row) 
mydb=> UPDATE test_r1 SET flag="'p' WHERE id=1 RETURNING * 
id | flag 
| 
(1 row) 
UPDATE 1 


4.3.3 ”RETURNING 返 回 删 除 的 数据 


DELETE 后 接 RETURNING 属 性 返回 删除 的 数 


据 ， 如 下 所 示 : 





mydb=> DELETE FROM test_r1 WHERE id=2 RETURNING *; 


id | flag 
ns 于 
2 | b 
(1 row) 
DELETE 1 


4.4 UPSERT 


PostgreSQL 的 UPSERT 特 性 是 指 INSERT...ON 
CONFLICT UPDATE， 用 来 解决 在 数据 插入 过 程 中 
数据 冲突 的 情况 ， 比 如 违反 用 户 自 定义 约束 ， 在 日 
志 数 据 应 用 场景 中 ， 通 第 会 在 事务 中 批量 插入 日 志 
数据 ， 如 果 其 中 有 一 条 数据 违反 表 上 的 约束 ， 则 整 
个 插入 事务 将 会 回 滚 ，PostgreSQL 的 UPSERT 特 性 

能 解决 这 一 问题 。 








4.4.1 UPSERT 场 景 演示 


接 下 来 通过 例子 来 理解 UPSERT 的 功能 ， 
一 张 用 户 登 录 日 志 表 并 插入 一 条 数据 ， > 





mydb=> CREATE TABLE user_logins(user_name text primary key, 
login_cnt int4, 

last_login time timestamp(0) without time zone); 

CREATE TABLE 


mydb=> INSERT INTO user_logins(user_name, login_ cnt) VALUES ('f 
INSERT © 1 


在 user_ logins 表 user_name 字 段 上 定义 主键 ， 批 
量 插入 数据 中 如 有 重复 会 报错 ， 如 下 上 所 示 : 


mydb=> INSERT INTO user_logins(user_name, login_cnt) 

VALUES ('matiler',1),('francs',1); 

ERROR: duplicate key Value violates unique constraint "USser_ ] 
DETAIL: Key (user_name)=(francs) already exists. 


上 述 SQL 试 图 插入 两 条 数据 ， 其 中 matiler 这 条 
数据 不 违反 主键 冲突 ， 而 francs 这 条 数据 违反 主键 
冲突 ， 结 果 两 条 数据 都 不 能 插入 。PostgreSQL 的 
UPSERT 可 以 处 理 冲突 的 数据 ， 比 如 当 插 入 的 数据 
冲突 时 不 报错 ， 同 时 更 新 冲突 的 数据 ， 如 下 所 示 : 


mydb=> INSERT INTO user_logins(user_name, login_cnt) 

VALUES ('matiler',1),('francs',1) 

ON CONFLICT(user_name ) 

DO UPDATE SET 

login_cnt=user_logins.1login_ cnt+EXCLUDED.1login_cnt,1last_ login_ 
INSERT © 2 


上 述 INSERT 语 句 插入 两 条 数据 ， 并 设置 规 
则 : 当 数 据 冲 突 时 将 登录 次 数字 段 login_cnt 值 加 1， 
同时 更 新 最 近 登 录 时 间 last_login_time，ON 
CONFLICT (user name) 定义 冲突 类 型 为 
User name 字段 ，DO UPDATE SET 古 指 冲突 动作 ， 
后 面 定义 了 一 个 UPDATE 语 句 。 注 意 上 述 SET 命 令 
中 引用 了 user loins 表 和 内 置 表 EXCLUDED， 引 用 
原 表 user_ loins 访 问 表 中 已 存在 的 冲突 记录 ， 内 置 表 
EXCLUDED3 引 用 试图 插入 的 值 ， 再 次 查询 表 
user_login， 如 下 所 示 : 








mydb=> SELECT * FROM user_logins ; 


user_name | login_cnt | last_login_ time 
Ev Ee 

matiler | 1 | 

francs | 2 | 2017-08-08 15:23:13 


(2 rows) 








一 方面 冲突 的 i 条 数据 被 更 新 了 login_cnt 
和 jlast_login_time 字 段 ， 另 一 方面 新 的 数据 matiler 记 
录 已 正常 插入 。 


也 可 以 定义 数据 冲突 后 哈 也 不 干 ， 这 时 需 指定 
DO NOTHING 属 性 ， 如 下 所 示 : 





mydb=> INSERT INTO user_logins(user_name,1ogin_cnt) 
VALUES ('tutu',1),('francs',1) 

ON CONFLICT(uSer_name) DO NOTHING; 

INSERT © 1 








再 次 查询 表 数 据 ， 新 的 数据 tutu 这 条 已 插入 到 
表 中 ， 冲 突 的 数据 francs 这 行 喻 也 没 变 ， 结 果 如 下 
所 示 : 





mydb=> SELECT * FROM user_logins ; 


user_name | login_cnt | last_login_ time 
PW ee A 

matiler | 1 | 

francs | 2 | 2017-08-08 15:23:13 

tutu | 1 | 


(3 rows) 


二 一 


4.4.2 ”UPSERT 语 法 


PostgreSQL 的 UPSERT 语 法 比较 复杂 ， 通 过 以 
上 演示 后 再 来 但 看 语法 会 轻松 些 ， 语 法 如 下 : 








INSERT INTO table name [ AS alias ] [ ( column name [, ...] ) 
[ ON CONFLICT [ conflict target ] conflict action | 


where conflict_ target can be one of: 
( { index_column _ name | ( index_ expression ) } [ COLLATE < 
ON CONSTRAINT constraint_name 


and conflict action is one of: 
DO NOTHING 
DO UPDATE SET { column_name = { expression | DEFAULT } | 
( column name [, ...] ) [ ROW ] ( { expre 
( column_ name [, ...] ) ( sub-SELECT ) 


了 [, ...] 
[ WHERE condition | 





以 上 语法 主要 注意 [ON 
CONFLICT[conflict_target]jconflict_action] 这 行 ， 
conflict_target 指 选择 仲裁 索引 判定 冲突 行为 ， 一般 
指定 被 创建 约束 的 字段 ，conflict_action 指 冲突 动 
作 ， 可 以 是 DO NOTHING， 也 可 以 是 用 户 自 定义 的 
UPDATE 语 句 。 





4.5 数据 抽样 


数据 抽样 (TABLESAMPLE ) 在 数据 处 理 方面 
经 常用 到 ， 特 别 是 当 表 数据 量 比 较 大 时 ， 随 机 查询 
表 中 一 定数 量 记录 的 操作 很 铝 见 ，PostgreSQL 早 在 
9.5 版 时 就 已 经 提供 了 TABLESAMPLE 数 据 抽样 功 
能 ，9.5 版 前 通常 通过 ORDER BY random () 方式 
实现 数据 抽样 ， 这 种 方式 虽然 在 功能 上 满足 随机 返 
回 指定 行 数据 ， 但 性 能 很 低 ， 如 下 所 示 : 











mydb=> SELECT * FROM user_ini ORDER BY random( ) LIMIT 工 ; 
Id | user_id | user_name | create time 
和 Ee 
500449 | 768810 | 2TY6P4 | 2017-08-05 15:59:32.29476 
(1 row) 


mydb=> SELECT * FROM user_ini ORDER BY random() LIMIT 1; 
id | user_id | user_name | create_ time 
和 0 
324823 | 740720 | 07SKCU | 2017-08-05 15:59:29.91398 
(1 row) 





执行 计划 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT * FROM User_ini ORDER BY random( 
QUERY PLAN 
Limit (cost=25599.98..25599.98 rows=1 width=35) (actual time 
-> Sort (cost=25599.,98.,.28175.12 rows=1030056 width=35) 
Sort Key: (random()) 
Sort Method: top-N heapsort Memory: 25KkB 


-> Sed Scan on user_ini (cost=0.00..20449.70 row 
Planning time: 0.083 ms 
Execution time: 367.909 ms 
(7 rows) 


表 user_ini 数 据 量 为 100 万 ， 从 100 万 随机 取 一 条 
上 述 SQL 的 执行 时 间 为 367ms， 这 种 方法 进行 了 全 
表 扫 描 和 排序 ， 效 率 非 常 低 ， 当 表 数 据 量 大 时 ， 人 性 
能 几乎 无 法 接受 。 


9.5 版 本 以 后 PostgreSQL 支 持 TABLESAMPLE 
数据 抽样 ， 语 法 如 下 所 示 : 





SELECT %ii 
FROM table_name 
TABLESAMPLE sampling_ method ( argument [, ...] ) [ REPEATABLE 


sampling_method 指 抽样 方法 ， 主 要 有 两 种 : 
SYSTEM 和 BERNOULLI， 接 下 来 详细 介绍 这 两 种 
抽样 方式 ，argument 指 抽样 百分比 。 


9 注意 explain analyze 命 令 表示 实际 执行 这 
条 SQL， 同 时 显示 SQL 执行 计划 和 执行 时 间 ， 
Planning time 表 示 SQL 语 多 解析 生成 执行 计划 的 时 
间 ，Execution time 表 示 SQL 的 实际 执行 时 间 。 


4.5.1 SYSTEM 抽 样 方式 


SYSTEM 抽 样 方式 为 随机 抽取 表 上 数据 块 上 的 
数据 ， 理 论 上 被 抽样 表 的 每 个 数据 块 被 检索 的 概率 
是 一 样 的 ，SYSTEM 抽 样 方式 基于 数据 块 级 别 ， 后 
接 抽 样 参数 ， 被 选中 的 块 上 的 所 有 数据 将 被 检索 ， 
下 面 使 用 示例 进行 说 明 。 


创建 test_sample 测 试 表 ， 并 插入 150 万 数据 ， 如 
下 所 示 : 








mydb=> CREATE TABLE test_sample(id int4,message text, 
create time timestamp(6) without time zone default clock_ times 
CREATE TABLE 


mydb=> INSERT INTO test_ sample(id,message) 
SELECT n, md5(random()::text) FROM generate series(1,1500000) 
INSERT © 1500000 


mydb=> SELECT * FROM test_sample LIMIT 1; 


id | message | create_ time 
ENP EP PN PR 

1 | 58f2506410be948963d6d9adf4b4e0c2 | 2017-08-08 21:17:2 
(1 row) 


抽样 因子 设置 成 0.01， 意 味 着 返回 
1500000x0.01%=150 条 记录 ， 执 行 如 下 SQL: 


EXPLAIN ANALYZE SELECT * FROM test_sample TABLESAMPLE SYSTEM(Q 


执行 计划 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT * FROM test_ sample TABLESAMPLE S 
QUERY PLAN 
Sample Scan on test sample (cost=0,00,.3.50 rows=150 widt 
Sampling: System ('0.01'::real) 
Planning time: 0.053 ms 
Execution time: 0.166 ms 
(4 rows) 





以 上 执行 计划 主要 有 两 点 ， 一 方面 进行 了 
Sample Scan 扫 描 (抽样 方式 为 SYSTEM)〉， 执 行 时 
间 为 0.166 室 秒 ， 性 能 较 好 ， 另 一 方面 优化 器 预计 访 
问 150 条 记录 ， 实 际 返 回 107 条 ， 为 什么 会 返回 107 
条 记录 呢 ? 接着 簿 看 表 占 用 的 数据 块 数量 ， 如 下 所 
人 小 : 





mydb=> SELECT relname,relpages FROM pg_class WHERE relname="'te 
relname | relpages 
Es oe 
test_sample | 14019 
(1 row) 





表 test_sample 物 理 上 占用 14019 个 数据 块 ， 也 束 
是 说 每 个 数据 块 存储 1000000/14019=107 条 记录 。 


查看 抽样 数据 的 ctid， 如 下 所 示 : 





mydb=> SELECT ctid,* FROM test_sample TABLESAMPLE SYSTEM(0O.01) 
ctid | id | message | 

Se TA 

(5640,1) | 603481 | 385484b3452b245e46388d71ice4ea928 | 2017 

(5640,2) | 603482 | e09c526118f1d4b3c391d59ae915c4e8 | 2017 


… 省 略 很 多 行 
(5640,107) | 603587 | c33875a052f4ca63c4b38c649fb6bcc3 | 2017 - 
(107 rows ) 





ctid 是 表 的 隐藏 列 ， 括 号 里 的 第 一 位 表示 逻辑 
数据 器 网 写 ， 第 二 位 表示 逻辑 块 上 的 数据 的 逻辑 编 
号 ， 从 以 上 看 出 ， 这 107 条 记录 都 存储 在 逻辑 编号 
为 5640 的 数据 块 上 ， 世 束 是 说 抽样 查询 返回 了 一 个 
数据 块 上 的 所 有 数据 ， 抽 样 因 子 固 定 为 0.01， 多 次 
执行 以 下 查询 ， 如 下 所 示 : 


mydb=> SELECT count(*) FROM test_sample TABLESAMPLE SYSTEM(0， 
count 


214 
(1 row) 


mydb=> SELECT count(*) FROM test_ sample TABLESAMPLE SYSTEM(0 . 
count 


107 
(1 row) 


再 次 查询 发 现 返 回 的 记录 为 214 或 107， 由 于 一 
个 数据 块 存 储 107 条 记录 ， 因 此 查询 结果 有 时 返回 
了 两 个 数 块 上 的 所 有 数据 ， 这 是 因为 抽样 因子 设置 
成 0.01， 意 味 着 返回 1500000x0.01%=150 条 记录 ， 
150 条 记录 需 要 两 个 数据 块 存 储 ， 这 也 验证 了 
SYSTEM 抽 样 方式 返回 的 数据 以 数据 块 为 单位 ， 被 
抽样 的 块 上 的 所 有 数据 被 检索 。 





4.5.2 BERNOULLI 抽 样 方式 


BERNOULLI 抽 样 方式 随机 抽取 表 的 数据 行 ， 
并 返回 指定 百分比 数据 ，BERNOULLI 抽 样 方式 基 
于 数据 行 级 别 ， 理 论 上 被 抽样 表 的 每 行 记录 被 检索 
的 概率 是 一 样 的 ， 因 此 BERNOULLI 抽 样 方式 抽取 
的 数据 相 比 SYSTEM 抽 样 方式 具有 更 好 的 随机 性 ， 
但 性 能 上 相 比 SYSTEM 抽 样 方式 低 很 多 ， 下 面 演 示 
下 BERNOULLI 抽 样 方式 ， 同 样 基 于 test_sample 测 
试 表 。 


设置 抽样 方式 为 BERNOULLI， 抽 样 因子 为 
0.01， 如 下 所 示 : 














mydb=> EXPLAIN ANALYZE SELECT * FROM test_ sample TABLESAMPLE Pe 
QUERY PLAN 
Sample Scan on test_ sample (cost=0.00..14020.50 rows=150 
Sampling: bernoulli ('0.01'::real) 
Planning time: 0.063 ms 
Execution time: 22.569 ms 
(4 rows) 


从 以 上 执行 计划 看 出 进行 了 Sample Scan 扫 摘 
(抽样 方式 为 BERNOULLI) ， 执 行 计 划 预 计 返 回 
150 条 记录 ， 实 际 返 回 152 条 ， 从 返回 的 记录 数 来 
看 ， 非 常 接近 150 条 “(1000000x0.01%) ， 但 执行 时 
间 却 要 22.569 守 秒 ， 性 能 相 比 SYSTEM 抽 样 方式 





0.166 坚 秒 差 了 136 倍 。 





多 次 执行 以 下 查询 ， 查 看 返回 记录 数 的 变化 ， 
如 下 上 所 示 : 


mydb=> SELECT count(*) FROM test_ sample TABLESAMPLE BERNOULLI 
count 


151 
(1 row) 


mydb=> SELECT count(*) FROM test_ sample TABLESAMPLE BERNOULLI 
count 


从 以 上 看 出 ，BERNOULLI 抽 样 方 式 返 回 的 数 
据 量 非常 接近 抽样 数据 的 百分比 ， 而 SYSTEM 抽 样 
方式 数据 返回 以 数据 块 为 单位 ， 被 抽样 的 块 上 的 所 
有 数据 都 被 返回 ， 因 此 SYSTEM 抽 样 方式 返回 的 数 
据 量 偏差 较 大 。 








由 于 BERNOULLI 抽 样 基于 数据 行 级 别 ， 猜 想 
返回 的 数据 应 该 位 于 不 同 的 数据 块 上 ， 通 过 查询 表 
的 ctid 进 行 验证 ， 如 下 所 示 : 


mydb=> SELECT ctid,id,message 


FROM test_ sample TABLESAMPLE BERNOULLI(0.01) JIMIT 3; 
ctid | id | message 


(55,30) | 5915 | f3803f234f6cf6cdd276d9d027487582 
(240,23) | 25703 | co94af69ac76f6465832egcd87939a1laf 
(318,3) | 34029 | dd35438b24980d1a8ed2d3f5edd5calc 


从 以 上 三 条 记录 的 ctid 信 息 看 出 ， 三 条 数据 分 
别 位 于 数据 块 55、240、318 上 ， 因 此 BERNOULLI 
抽样 方式 随机 性 相 比 SYSTEM 抽 样 方 式 更 好 。 


本 节 演 示 了 SYSTEM 和 BERNOULLI 抽 样 方 

式 ，SYSTEM 抽 样 方式 基于 数据 块 级 别 ， 随 机 抽取 
表 数 据 块 上 的 记录 ， 因 此 这 种 方式 抽取 的 记录 的 随 
机 性 不 是 很 好 ， 但 返回 的 数据 以 数据 块 为 单位 ， 抽 
样 性 能 很 高 ， 适 用 于 抽样 效率 优先 的 场景 ， 例 如 抽 
样 大 小 为 上 百 GB 的 日 志 表 ; 而 BERNOULLI 抽 样 方 
式 基于 数据 行 ， 相 比 SYSTEM 抽 样 方式 所 抽样 的 数 
据 随 机 性 更 好 ， 但 性 能 相 比 SYSTEM 差 很 多 ， 适 用 
于 抽样 随机 性 优先 的 场景 。 读 者 可 根据 实际 应 用 场 
景 选 择 抽 样 方式 。 





4.6 ”聚合 函数 


聚合 函数 可 以 对 结果 集 进 行 计 算 ， 第 用 的 聚合 
冰 数 有 avg () 、sum () 、min () 、max () 、 
count〈) 等 ， 本 节 将 介绍 PostgreSQL 两 个 特殊 功能 
的 聚合 函数 并 给 出 测试 示例 。 


在 介绍 两 个 聚合 函数 之 前 ， 先 来 看 一 个 应 用 场 
景 ， 假如 - 张 表 有 以 下 数据 : 





中 国 台北 
中 国 香港 
中 国 上 海 
日 本 东 未 
日 本 大 孤 


要 求 得 到 如 下 结果 集 : 


中 国 台北 ， 香 港 ， 上 海 
日 本 东京 ， 大 阪 





读者 想 想 这 个 SQL 如 何 写 ? 


4.6.1 _ string_agg 范 数 


自 完 介绍 string_agg 函 数 ， 此 函数 语法 如 下 所 


一 


和 修 : 


string_agg(expression, delimiter) 








人 简 是 地 说 string_agg 函数 能 将 结 琳 集 茶 个 字段 的 
所 有 行 连接 成 字符 串 ， 并 用 指定 delimiter 分 局 符 分 
隔 ，expression 表 示 要 处 理 的 字符 类 型 数据 ; 参数 的 


类 型 为 


(text，text) 或 (bytea，bytea) ， 子 数 返 


回 的 类 型 同 输入 参数 类 型 一 致 ，bytea 属 于 二 进 制 类 
型 ， 使 用 情况 不 多 ， 我 们 主要 介绍 text 类 型 输入 参 
数 ， 本 节 开 头 的 场景 正好 可 以 用 string_agg 函 数 处 


理 。 


首先 创建 测试 表 并 插入 以 下 数据 : 


CREATE 
INSERT 
INSERT 
INSERT 
INSERT 
INSERT 


TABLE city (country character varying(64),city characte 
INTO city VALUES (' 中 国 ', ' 台 北 ' ); 
INTO city VALUES (' 中 国 ', ' 香 港 ')， 
INTO city VALUES (' 中 国 ', ' 上海 ' ); 
INTO city VALUES (' 日 本 ',' 东 京 ' ); 
INTO city VALUES (' 日 本 ', ' 大 阪 '); 


数据 如 下 所 示 : 





mydb=> 


SELECT * FROM city; 


country | city 


本 Fre 


中 国 | 台北 

中 国 | 香港 

中 国 | 上 海 

日 本 | 东 素 

日 本 | 大 阪 
(5 rows ) 





将 city 字 段 连接 成 字符 串 的 代码 如 下 所 示 : 





mydb=> SELECT string_agg(city,',') FROM city; 
string_agg 


台北 , 香港, 上海, 东京 , 大 阪 
(1 row) 





可 见 string_agg 函 数 将 输 出 的 结 末 集 连 接 成 了 字 
符 串 ， 并 用 指定 的 逗号 分 隔 符 分 隔 ， 回 到 本 文 开 头 
的 问题 ， 通 过 SQL 实现 ， 如 下 所 示 : 








mydb=> SELECT country,string agg(city,',') FROM city GROUP BY 


country | string_agg 
ee a ee a ee 

日 本 | 东 东 ,大 孤 

中 国 | 台北 , 香港, 上海 
(2 rows) 





4.6.2 array_agg 羡 数 


array_agg 困 数 和 string_agg 困 数 类 似 ， 最 主要 的 
区 别 为 返回 的 类 型 为 数组 ， 数 组 数据 类 型 同 输入 参 





数 数据 类 型 一 致 ，array_agg 函 数 支 持 两 种 语法 ， 第 


array_agg(expression) -- 输 入 参数 为 任何 非 数 组 类 型 


输入 参数 可 以 是 任何 非 数 组 类 型 ， 返 回 的 结果 
是 一 维 数组 ，array_agg 国 数 将 结果 集 茶 个 字段 的 所 
有 行 连接 成 数组 ， 例 如 执行 以 下 查询 : 





mydb=> SELECT country,array_agg(city) FROM city GROUP BY count 


country | array_agg 
i 于 

日 本 | {东京 , 大 阪 } 

中 国 | {人 台北 , 香港, 上 海 } 


array_agg 国 数 输出 的 结果 为 字符 类 型 数组 ， 其 
他 无 明显 区 别 ， 使 用 array_agg 函 数 主 要 优点 在 于 可 
以 使 用 数组 相关 函数 和 操作 符 。 


第 二 种 array_agg 函 数 语 法 如 下 上 所 示 : 


array_agg(expression) -- 输 入 参数 为 任何 数组 类 型 


第 一 种 array_agg 函 数 的 输入 参数 为 任何 非 数组 
类 型 ， 这 里 输入 参数 为 任何 数组 类 型 ,返回 类 型 为 
多 维 数 组 : 


首先 创建 数组 表 。 





mydb=> CREATE TABLE test_array3(id int4[]); 

CREATE TABLE 

mydb=> INSERT INTO test_array3(id) VALUES (array[1,2,3]); 
INSERT © 1 

mydb=> INSERT INTO test array3(id) VALUES (array[4,5,6]); 
INSERT © 1 





数据 如 下 所 示 : 





mydb=> SELECT * FROM test_array3; 
id 


(2 rows) 





使 用 array_agg 函 数 ， 如 下 所 示 : 





mydb=> SELECT array_agg(id) FROM test_array3; 
array_agg 
{{1,2,3},14,5,6}} 
(1 row) 





也 可 以 将 array_agg 函 数 输 出 类 型 转换 成 字符 
串 ， 并 用 指定 分 隅 从 分 阳 ， 使 用 array_to_string 消 
数 ， 如 下 所 示 : 





mydb=> SELECT array_to_string( array_agg(id),',') FROM test_ar 
array_to_string 


1,2,3,4,5,6 
(1 row) 


[EE | 


区 | 





4.7 窗口 函数 
J 


上 一 节 介 绍 了 聚合 函数 ， 聚 合 函 数 将 结果 集 进 
行 计 算 并 且 通 常 返回 一 行 。 窗 口 函 数 也 是 基于 结果 
集 进行 计算 ， 与 聚合 函数 不 同 的 是 窗口 函数 不 会 将 
结果 集 进 行 分 组 计算 并 输出 一 行 ， 而 是 将 计算 出 的 
结果 合并 到 输出 的 结果 集 上 ， 并 返回 多 行 。 使 用 窗 
口 函 数 能 大 幅 简 化 SQL 代码 。 








4.7.1 窗口 函数 语法 
PostgreSQL 提 供 内 置 的 窗口 函数 ， 例 如 
row_num () 、rank () 、lag〈) 等 ， 除 了 内 置 的 


窗口 函数 外 ， 聚 合 函数 、 上 自 定 义 函 数 后 接 OVER 属 
性 也 可 作为 窗口 函数 。 


窗口 函数 的 调用 语法 稍 复 保 ， 如 下 所 示 : 
function_name ([expression [, expression ... 1]]1) [ FILTER ( WH 
其 中 window_definition 语 法 如 下 : 


[ existing_window_name | 
[ PARTITION BY expression [, ...] | 
[ ORDER BY expression [ ASC | DESC | USING operator |] [ NULLS 


[ frame_clause | 


说 明 如 下 : 
- OVER 表示 窗口 函数 的 关键 字 。 


. PARTITON BY 属性 对 查询 返回 的 结果 集 进 
行 分 组 ， 之 后 窗口 子 数 处 理 分 组 的 数据 。 


“ ORDER BY 属性 设 定 结果 集 的 分 组 数据 排 
序 。 


后 续 小 节 将 介绍 利用 窗口 函数 的 使 用 。 
4.7.2 avg () OVER () 


聚合 函数 后 接 OVER 属 性 的 窗口 函数 表示 在 一 
个 合 询 结果 集 上 应 用 聚合 函数 ， 本 市 将 演示 
avg〈) 聚合 函数 后 接 OVER 属 性 的 窗口 函数 ， 此 窗 
口 函 数 用 来 计算 分 组 后 数据 的 平均 值 。 


创建 一 张 成 绩 表 并 插入 测试 数据 ， 如 下 所 示 : 





CREATE TABLE score ( id serial primary key, 
subject character varying(32), 
stu_name character varying(32), 
Score numeric(3,0) ); 


INSERT 
INSERT 
INSERT 
INSERT 
INSERT 
INSERT 
INSERT 
INSERT 
INSERT 


INTO 
INTO 
INTO 
INTO 
INTO 
INTO 
INTO 
INTO 
INTO 


Score ( subject,stu name,score ) VALUES ('Chinese' 
Score ( subject,stu name,score ) VALUES ('Chinese' 
Score ( subject,stu name,score) VALUES ('Chinese '， 
Score ( subject,stu name,score ) VALUES ('English' 
Score ( subject,stu name,score ) VALUES ('English' 
Score ( subject,stu name,score ) VALUES ('English' 
Score ( subject,stu_ name,score ) VALUES ('Math','f 
Score ( subject,stu name,score ) VALUES ('Math','r 
Score ( subject,stu name,score ) VALUES ('Math','t 








查询 每 名 学 生 学 习 成 绩 并 有 旦 显示 课程 的 平均 
分 ， 通 常 是 先 计算 出 课程 的 平均 分 ， 人 然后 用 score 表 
与 平均 分 表 关 联 查 询 ， 如 下 所 示 : 





mydb=> SELECT $s.subject, 
FROM score s 


LEFT JOIN (SELECT subject, 
ON s.subject 


subject 


Chinese 
Chinese 
Chinese 
English 
English 
English 
Math 
Math 
Math 

(9 rows) 


| stu_name 


| francs 
| matiler 
| tutu 

| matiler 
| francs 
| tutu 

| francs 
| matiler 
| tutu 


Ss.stu_name,s.score, 


tmp,Subject 


Score | 


MD 
© 


avgscore 
.3333333333333333 
.3333333333333333 
.3333333333333333 
.0000000000000000 
.0000000000000000 
.0000000000000000 
.3333333333333333 
.3333333333333333 
.3333333333333333 


tmp.avgscore 


avg(score) avgscore FROM score 





修 \ 


使 用 窗 


国 数 很 容易 实 


现 以 上 需求 ， 如 下 所 





mydb=> SELECT subject, stu_name, 


score, 


avg(Score) OVER(PARTITI 


Subject | stu name | score | avg 
二 Oe 
Chinese | francs | 70 | 73.3333333333333333 
Chinese | matiler | 70 | 73.3333333333333333 
Chinese | tutu | 80 | 73.3333333333333333 
English | matiler | 75 | 75.0000000000000000 
English | francs | 90 | 75.0000000000000000 
English | tutu | 60 | 75.0000000000000000 
Math | francs | 80 | 81.3333333333333333 
Math | matiler | 99 | 81.3333333333333333 
Math | tutu | 65 | 81.3333333333333333 
(9 rows) 








以 上 查询 前 三 列 来 源 于 表 score， 第 四 列表 示 取 
课程 的 平均 分 ，PARTITION BY subject 表 示 根 据 字 
段 subject 进 行 分 组 。 

4.7.3 row_number () 


row_number〈() 窗口 函数 对 结果 集 分 组 后 的 数 
据 标 注 行 号 ， 从 1 开始 ， 如 下 所 示 : 





mydb=> SELECT row_number() OVER (partition by subject ORDER BY 


row_number| id | subject | stu_name | Score 
a 9 
1 | 3 | Chinese | tutu | 80 

2| 1L1| Chinese | francs | 70 

3| 2 | Chinese | matiler | 70 

1 | 5 | English | francs | 90 

2 | 4 | English | matiler | 75 

3| 6 | English | tutu | 60 

1 | 8 | Math | matiler | 99 

2| 7 | Math | francs | 80 

3| 9 | Math | tutu | 65 


(9 rows) 








以 上 row_number () 窗口 函数 显示 的 是 分 组 后 
记录 的 行 写 ， 如 果 不 指定 partition 属 性 ， 
row_number () 窗口 函数 显示 表 所 有 记录 的 行 号 ， 
类 似 oracle 里 的 ROWNUM， 如 下 所 示 : 














mydb=> SELECT _ row_number() OVER (ORDER BY id) AS rownum ,* FR 
rownum | id | subject | Stu_name | score 
2 中 
1 | 1 | Chinese | francs | 70 
2 | 2 | Chinese | matiler | 70 
3| 3 | Chinese | tutu | 80 
4| 4 | English | matiler | 75 
5 | 5 | English | francs | 90 
6 | 6 | English | tutu | 60 
7 | 7 | Math | francs | 80 
8| 8 | Math | matiler | 99 
9 | 9 | Math | tutu | 65 
(9 rows) 
4.7.4 rank () 


rank () 窗口 函数 和 row_number () 窗口 函数 
相似 ， 主 要 区 别 为 当 组 内 某 行 字 段 值 相同 时 ， 行 号 
重复 并 且 行 号 产生 间 陀 “手册 上 解释 为 gaps) ， 如 
下 所 示 : 











mydb=> SELECT rank() OVER(PARTITION BY subject ORDER BY Score) 
rank | id | subject | stu name | score 

和 Ee 

2 | Chinese | matiler | 

1 | Chinese | francs | 


3| 3 | Chinese | tutu | 80 
1 | 6 | English | tutu | 60 
2 | 4 | English | matiler | 75 
3| 5 | English | francs | 90 
1 | 9 | Math | tutu | 65 
2| 7 | Math | francs | 80 
3| 8 | Math | matiler | 99 
(9 rows) 








以 上 示例 中 ，Chinese 课 程 前 两 条 记录 的 score 
字段 值 都 为 70， 因 此 前 两 行 的 rank 字 段 值 为 1， 而 第 
三 行 的 rank 字 段 值 为 ?9， 产 生 了 间 院 。 


4.7.5 dense rank () 
dense rank () 窗口 函数 和 rank() 窗口 函数 


相似 ， 主 要 区 别 为 当 组 内 某 行 字段 值 相同 时 ， 里 然 
行 号 重复 ， 但 行 号 不 产生 间 隐 ， 如 下 所 示 : 











mydb=> SELECT dense rank() OVER(PARTITION BY subject ORDER BY 
dense_rank | id | subject | stu _ name | score 


各 古训 
1 | 2 | Chinese | matiler | 70 
1 | 1 | Chinese | francs | 70 
2| 3 | Chinese | tutu | 80 
1 | 6 | English | tutu | 60 
2 | 4 | English | matiler | 75 
3| 5 | English | francs | 90 
1| 9 | Math | tutu | 65 
2| 7 | Math | francs | 80 
3| 8 | Math | matiler | 99 


(9 rows) 


二 一 


以 上 示例 中 ，Chinese 课 程 前 两 行 的 rank 字 段 值 
1， 而 第 三 行 的 rank 字 段 值 为 2， 没 有 产生 间 隐 。 


4.7.6 lag () 


另 一 重要 窗口 图 数 为 aig〈) ， 可 以 获取 行 仿 移 
offset 那 行 茶 个 字段 的 数据 ， 语 法 如 下 : 


lag(value anyelement [, offset integer [, default anyelement | 


AS 中 : 
Value 指 定 要 返回 记录 的 字段 。 
. offset 指 行 偏 移 量 ， 可 以 是 正 整 数 或 负 整 数 ， 
正 整 数 表示 取 结 果 集 中 向 上 偏 移 的 记录 ， 负 整数 表 
示 取 结果 集中 向 下 偏 移 的 记录 ， 默 认 值 为 1。 


default 是 指 如 果 不 存 在 offset 偏 移 的 行 时 用 默 
认 值 填充 ，default 值 默认 为 null。 


例如 ， 查 询 score 表 并 获取 同上 偏 移 一 行 记 录 的 
id 值 ， 如 下 所 示 : 


mydb=> SELECT lag(id,1)OVER(),* FROM score; 
lag | id | subject | stu name | score 


查询 score 表 并 获取 同上 偏 移 两 行 记 录 的 id 值 ， 
并 指定 默认 值 ， 代 人 码 如 下 所 示 : 


‘OONOOOPODNDPcP 


mydb=> SELECT 


lag 


一 ~ OO 上 上 wwNN 忆 


(9 rows 


以 上 演示 了 lag() 窗口 函数 取 癌 上 偶 移 记录 的 
字段 值 ， 将 offset 设 置 成 负 整数 可 以 取 癌 下 偶 移 记录 
的 字段 值 ， 有 兴趣 的 读者 目 行 测试 。 


| id 


OOOOOOPODNDPcP 


一 一 一 一 一 一 一 一 一 ++ 


lag(id,2,1000)0OVER(),* FROM score; 


一 一 一 一 一 一 一 一 一 十 一 一 


Chinese 
Chinese 
Chinese 
English 
English 
English 
Math 
Math 
Math 


subject 
Chinese 
Chinese 
Chinese 
English 
English 
English 
Math 

Math 

Math 


4.7.7 first value () 


francs 
matiler 
tutu 
matiler 
francs 
tutu 
francs 
matiler 
tutu 








| stu_name | score 


francs 
matiler 
tutu 
matiler 
francs 
tutu 
francs 
matiler 
tutu 








first_ value〈) 窗口 函数 用 来 取 结 果 集 每 一 1 
分 组 的 第 一 行 数 据 的 字段 值 。 


例如 score 表 按 诛 程 分 组 后 取 分 组 的 第 一 行 的 分 


数 ， 如 下 所 示 : 





mydb=> SELECT first_value(score) 


first value 


(9 rows) 


| id 


‘OOOODPc 


一 一 一 一 一 一 一 一 一 十 一 一 


Subject 


Chinese 
Chinese 
Chinese 
English 
English 
English 
Math 
Math 
Math 


| 
十 
| 


OVER( PARTITION BY subject ), 
stu_name | score 
ye 书评 


francs | 70 
matiler | 70 
tutu | 80 
matiler | 75 
francs | 90 
tutu | 60 
francs | 80 
matiler | 99 
tutu | 65 








通过 first_value () 窗口 函数 很 容易 查询 分 组 
数据 的 最 大 值 或 最 小 值 ， 例如 score 表 按 课程 分 组 同 
时 取 每 门 课程 的 最 高 分 ， 如 下 所 示 : 





mydb=> SELECT first_value(score) 
| Stu_name | score 


first value 


| id 


~loogD 上 上 ON 发 


一 一 一 一 一 一 一 一 十 一 一 


Subject 


Chinese 
Chinese 
Chinese 
English 
English 
English 
Math 

Math 


OVER( PARTITION BY subject OF 


tutu | 80 
francs | 70 
matiler | 70 
francs | 90 
matiler | 75 
tutu | 60 
matiler | 99 
francs | 80 


99 | 9 | Math | tutu | 65 
(9 rows ) 





4.7.8 last value () 


last_value () 窗口 函数 用 来 取 结 果 集 每 一 个 分 
组 的 最 后 一 行 数 据 的 字段 值 。 


例如 score 表 按 课程 分 组 后 取 分 组 的 最 后 一 行 的 
分 数 ， 如 下 所 示 ; 





mydb=> SELECT last_value(score) OVER( PARTITION BY Subject ),* 
Jast_value | id | subject | Stu_name | score 


和 和 
80 | 1 | Chinese | francs | 70 
80 | 2 | Chinese | matiler | 70 
80 | 3 | Chinese | tutu | 80 
60 | 4 | English | matiler | 75 
60 | 5 | English | francs | 90 
60 | 6 | English | tutu | 60 
65 | 7 | Math | francs | 80 
65 | 8 | Math | matiler | 99 
65 | 9 | Math | tutu | 65 


(9 rows) 





4.7.9 nth value () 


nth_value () 窗口 函数 用 来 取 结 果 集 每 一 个 分 
组 的 指定 行 数 据 的 字段 值 ， 语 法 如 下 所 未: 





nth_value(value any, nth integer) 





其 中 : 
value 指 定 表 的 字段 。 


nth 指 定 结 果 集 分 组 数据 中 的 第 几 行 ， 如 果 不 
存在 则 返回 空 


例如 score 表 按 诛 程 分 组 后 取 分 组 的 第 二 行 的 分 
数 ， 如 下 所 示 : 





mydb=> SELECT nth_value(score,2) OVER( PARTITION BY subject ), 


nth_value | id | subject | stu name | score 
和 0 
70 | 1 | Chinese | francs | 70 

70 | 2 | Chinese | matiler | 70 

70 | 3 | Chinese | tutu | 80 

90 | 4 | English | matiler | 75 

90 | 5 | English | francs | 90 

90 | 6 | English | tutu | 60 

99 | 7 | Math | francs | 80 

99 | 8 | Math | matiler | 99 

99 | 9 | Math | tutu | 65 


(9 rows) 





4.7.10 ”窗口 函数 别名 的 使 用 





II 数 ， 可 以 使 用 
欠 口 函数 别名 ， 语 法 如 下 : 








SELECT ，， 


FROM .. 


WINDOW window_name AS ( window_definition ) 





WINDOW 属 性 指定 表 的 别名 为 
window_name， 可 以 给 OVER 属性 引用 ， 如 下 所 





外: 

mydb=> SELECT avg(score) OVER(Cr),Sum(Score) OVER(r),* FROM SCC 
avg | sum | id | subject | stu name | scor 
RR TT TE TE RE Te 
73.3333333333333333 | 220 | 1 | Chinese | francs | 7 
73.3333333333333333 | 220 | 2 | Chinese | matiler | 7 
73.3333333333333333 | 220 | 3 | Chinese | tutu | 8 
75.0000000000000000 | 225 | 4 | English | matiler | 7 
75.0000000000000000 | 225 | 5 | English | francs | 9 
75.0000000000000000 | 225 | 6 | English | tutu | € 
81.3333333333333333 | 244 | 7 | Math | francs | 8 
81.3333333333333333 | 244 | 8 | Math | matiler | 9 
81.3333333333333333 | 244 | 9 | Math | tutu | € 

(9 rows) 





以 上 介绍 了 常用 的 窗口 函数 ， 读 者 可 根据 实际 








应 用 场景 使 用 相应 的 窗口 函数 。 


4.8 ”本 章 小 结 


本 章 介 绍 了 PostgreSQL 支 持 的 一 些 高 级 SQL 特 
性 ， 了 解 这 些 功能 可 简化 SQL 代 码 ， 提 升 开 发 效 
率 ， 并 且 实 现 普通 得 询 不 容易 实现 的 功能 ， 升 望 通 
过 阅读 本 章 旋 者 能 够 在 实际 工作 中 应 用 SQL 高 级 特 
性 ， 同 时 挖掘 PostgreSQEL 的 其 他 高 级 SQL 特性 。 











核心 篇 
体系 结构 

并 行 查询 
事务 与 并 发 控制 
分 区 表 


PostgreSQL 的 NoSQL 特 性 


第 5 革 体系 结构 


PostgreSQL 数 据 库 是 由 一 系列 位 于 文件 系统 上 
的 物理 文件 组 成 ， 在 数据 库 运 行 过 程 中 ， 通 过 整套 
高 效 严 齐 的 逻辑 管理 这 些 物 理 文 件 。 通 和音 将 这 些 物 
理 文 件 称 为 数据 库 ， 将 这 些 物理 文件 、 管 理 这 些 物 
理 文 件 的 进程 、 进 程 管 理 的 内 存 称 为 这 个 数据 库 的 
实例 。 在 PostgreSQL 的 内 部 功能 实现 上 ， 可 以 分 为 
系统 控制 器 、 奏 询 分 析 器 、 事 务 系统 、 恢 复 系 统 、 
文件 系统 这 几 部 分 。 其 中 系统 控制 右 负 贡 接 收 外 部 
连接 请 求 ， 查 询 分 析 嚣 对 连接 请 求 查 询 进 行 分 析 并 
生成 优化 后 的 查询 解析 树 ， 从 文件 系统 获取 结果 集 
或 通过 事务 系统 对 数据 做 处 理 ， 并 由 文件 系统 持久 
化 数据 。 本 章 将 人 简单 介绍 PostgreSQL 的 物理 和 好 辑 
结构 ， 同 时 介绍 PostgreSQL 实 例 在 运行 周期 的 进程 
结构 。 

















5.1 逻辑 和 物理 存储 结构 


在 PostgreSQL 中 有 一 个 数据 库 集 庆 (Database 
Cluster) 的 概念 ， 也 有 一 些 地 方 翻译 为 数据 库 集 
群 ， 它 是 指 由 单个 PostgreSQL 服 务 絮 实例 管理 的 数 
据 库 集合 ， 组 成 数据 库 集 刻 的 这 些 数 据 库 使 用 相同 
的 全 局 配置 文件 和 监听 端口 、 共 用 进程 和 内 存 结 
构 ， 并 不 是 指 “ 一 组 数据 库 服务 器 构成 的 集群 >， 在 
PostgreSQL 中 说 的 某 一 个 数据 库 实例 通常 是 指 某 个 
数据 库 集 艇 ， 这 一 点 和 其 他 第 见 的 关系 型 数据 库 有 


一 定 差 异 ， 请 读者 注意 区 分 。 








5.1.1 逻辑 存储 结构 





数据 库 集 复 是 数据 库 对 象 的 集合 ， 在 关系 数据 
库 理 论 中 ， 数 据 库 对 象 是 用 于 存储 或 引用 数据 的 数 
据 结 构 ， 表 就 是 一 个 典型 的 例子 ， 还 有 索引 、 序 
列 、 视 网 、 函 数 等 这 些 对 象 。 在 PostgreSQL 中 ， 数 
据 库 本 里 也 是 数据 库 对 象 ， 并 且 在 逻辑 上 彼此 分 
离 ， 除 数据 库 之 外 的 其 他 数据 库 对 象 〈 例 如 表 、 索 
引 等 ) 都 属于 它们 各 自 的 数据 库 ， 虽 然 它 们 隶属 同 
一 个 数据 库 集 复 ， 但 无 法 直接 从 集 复 中 的 一 个 数据 
库 访 问 该 集 徐 中 的 另 一 个 数据 库 中 的 对 象 。 








数据 库 本 和 刁 也 是 数据 库 对 象 ， 一 个 数据 库 集 秘 
可 以 包含 多 个 Database、 多 个 User， 每 个 Database 以 
及 Database 中 的 所 有 对 象 都 有 它们 的 所 有 者 : 
User。 图 5-1 显 示 了 数据 库 集 簇 的 逻辑 结构 。 


Database Cluster 




















图 5-1 PostgtreSQL 数 据 库 集 徐 逻 辑 结构 


创建 一 个 Database 时 会 为 这 个 Database 创 建 一 
个 名 为 public 的 默认 Schema， 每 个 Database 可 以 有 
多 个 Schema， 在 这 个 数据 库 中 创建 其 他 数据 库 对 象 
时 如 果 没 有 指定 Schema， 都 会 在 public 这 个 Schema 
中 。Schema 可 以 理解 为 一 个 数据 库 中 的 命名 空间 ， 
在 数据 库 中 创建 的 所 有 对 象 都 在 Schema 中 创建 ， 一 
个 用 户 可 以 从 同一 个 客户 病 连 接 中 访问 不 同 的 
Schema。 不 同 的 Schema 中 可 以 有 多 个 相同 名 称 的 
Table、Index、View、Sequence、Function 等 数据 库 
对 象 。 








5.1.2 ”物理 存储 结构 


数据 库 的 文件 默认 保存 在 initdb 时 创建 的 数据 
目录 中 。 在 数据 目录 中 有 很 多 类 型 、 功 能 不 同 的 目 
录 和 文件 ， 除 了 数据 文件 之 外 ， 还 有 参数 文件 、 控 
制 文件 、 数 据 库 运行 日 志 及 预 写 日 志 等 。 


1. 数 据 目录 结构 


数据 目录 用 来 存放 PostgreSQL 持 久 化 的 数据 ， 
通常 可 以 将 数据 目录 路 径 配 置 为 PGDATA 环 境 变 
量 ， 查 看 数据 目录 有 哪些 子 目 录 和 文件 的 命令 如 下 
所 示 : 








[postgres@pghost1 ~]$ tree -L 1 -d /pgdata/10/data 
/pgdata/10/data 

base 
| 一 pg_tblspc 


TTTTT 


| 一 pg_wal 


-一 glLobal 





表 5-1 对 数据 目录 中 子 目 录 和 文件 的 用 途 进行 


了 说 明 。 


表 5-1 数据 目录 中 子 目 录 和 文件 的 用 途 


目 录 
base 
global 
pg_commit ts 
pg_xact 
pg_dynshmem 
pg_logical 
pg_multixact 
pg_notify 
pg_repslot 
pg_serial 
pg_snapshots 
pg_stat 
pg_stat_tmp 
pg_subtrans 
pg_tblspc 
pg_twophase 


用 途 
包含 每 个 数据 库 对 应 的 子 目录 的 子 目 录 
包含 集 簇 范围 的 表 的 于 目录 , 比如 pg_database 
包含 事务 提交 时 间 惟 数据 的 子 目录 
包含 事务 提交 状态 数据 的 子 目 录 
包含 被 动态 共享 内 存 子 系统 所 使 用 文件 的 子 目录 
包含 用 于 逻辑 复制 的 状态 数据 的 子 目 录 
包含 多 事务 状态 数据 的 子 目 录 (用 于 共享 的 行 锁 ) 
包含 LISTEN/NOTIFY 状态 数据 的 子 目 录 
包含 复制 槽 数据 的 子 目录 
包含 已 提交 的 可 序列 化 事务 信息 的 子 目录 
包含 导出 的 快照 的 子 目录 
包含 用 于 统计 子 系统 的 永久 文件 的 子 目 录 
包含 用 于 统计 信息 子 系统 临时 文件 的 子 目 录 
包含 子 事务 状态 数据 的 子 目录 
包含 指向 表 空 间 的 符号 链接 的 子 目录 
用 于 预备 事务 状态 文件 的 子 目录 


pg_wal 保存 预 写 日 志 
pg_xact 记录 事务 提交 状态 数据 
文 件 用 途 
PG VERSION PostgreSQL 主 版 本 号 文件 
pg_hba.conf 客户 端 认 证 控制 文件 
postgresqlLconf 参数 文件 
postgresql auto_conf 参数 文件 ， 只 保存 ALTER SYSTEM 命令 修改 的 参数 
postmaster opts 记录 服务 器 最 后 一 次 启动 时 使 用 的 命令 行 参数 


2. 数 据 文 件 布局 


数据 目录 中 的 base 子 目录 是 我 们 的 数据 文件 默 
认 保 存 的 位 置 ， 是 数据 库 初 始 化 后 的 默认 表 空间 。 
在 讨论 base 目 录 之 前 ， 我 们 先 了 解 两 个 基础 的 数据 
库 对 象 : OID 和 表 空 间 。 





(1) OID 


PostgreSQL 中 的 所 有 数据 库 对 象 都 由 各 目的 对 
象 标识 符 (OID) 进行 内 部 管理 ， 它 们 是 无 符号 的 4 
字 节 整数 。 数 据 库 对 象 和 各 个 OID 之 间 的 关系 存储 
在 适当 的 系统 目录 中 ， 具 体 取 决 于 对 象 的 类 型 。 数 
据 库 的 OID 存 储 在 pg_database 系 统 表 中 ， 可 以 通过 
如 下 代码 查询 数据 库 的 OID: 











SELECT oid,datname FROM pg_database WHERE datname = 'mydb'; 
oid | datname 
和 再 


16384 | mydb 
(1 row) 


数据 库 中 的 表 、 索 引 、 序 列 等 对 象 的 OID 存 储 
在 pg_class 系 统 表 中 ， 可 以 通过 如 下 代码 查询 获得 
这 些 对 象 的 OID: 


mydb=# SELECT oid,relname,relkind FROM pg_class WHERE relname 


oid | relname | relkind 
ER PP 

16385 | tbl_ id _ seq | S 

16387 | tbl | r 

16396 | tbl pkey | i 

3455 | pg_class tblspc_relfilenode index | i 


(4 rows) 


(2) 表 空 间 





在 PostgreSQL 中 最 大 的 逻辑 存储 单位 是 表 衬 

则 ， 数 据 库 中 创建 的 对 象 都 保存 在 表 空 间 中 ， 例 如 
表 、 索 引 和 整个 数据 库 都 可 以 被 分 配 到 特定 的 表 空 
间 。 在 创建 数据 库 对 象 时 ， 可 以 指定 数据 库 对 象 的 
表 空 间 ， 如 果 不 指 定 则 使 用 默认 表 空 间 ， 也 了 吏 是 数 
据 库 对 象 的 文件 的 位 置 。 初 始 化 数据 库 目 录 时 会 自 
动 创建 pg_default 和 pg_global 两 个 表 空 间 。 如 下 所 
外: 








mydb=# \db 
List of tablespaces 
Name | Owner | Location 


pg_default | postgres | 
pg_9global | postgres | 
(2 rows) 


- pg_8global 表 空间 的 物理 文件 位 置 在 数据 目录 
的 global 目 录 中 ， 它 用 来 保存 系统 表 。 


pg_default 表 空间 的 物理 文件 位 置 在 数据 目录 
中 的 base 目 录 ， 是 template0 和 templatel 数 据 库 的 上 默 
认 表 空间 ， 我 们 知道 创建 数据 库 时 ， 默 认 从 
temblate1 数 据 库 进行 克隆 ， 因 此 除非 特别 指定 了 新 
建 数 据 库 的 表 空 间 ， 默 认 使 用 template1 的 表 空 间 ， 
也 就 是 pg_default。 


除了 两 个 默认 表 空 间 ， 用 户 还 可 以 创建 日 定义 


表 空 间 。 使 用 目 定 义 表 空间 有 两 个 典型 的 场景 : 


` 通过 创建 表 空 间 解 决 已 有 表 空 间 磁 盘 不 足 并 
无 法 逻辑 扩展 的 问题 ，; 


. 将 索引 、WAL、 数 据 文件 分 配 在 性 能 不 同 的 
磁盘 上 ， 使 硬件 利用 率 和 性 能 最 大 化 。 由 于 现在 固 
态 存储 已 经 很 普遍 ， 这 种 文件 布局 方式 反倒 会 增加 
维护 成 本 。 

要 创建 一 个 表 空 间 ， 先 用 操作 系统 的 postgres 
用 户 创建 一 个 目录 ， 然 后 连接 到 数据 库 ， 使 用 
CREATE TABLESPACE 命 令 创 建 表 空 间 ， 如 下 所 


人 小 : 


[postgres@pghost1 ~]$ mkdir -p /pgdata/10/mytblspc 
[postgres@pghost1 ~]$ /usr/pgsql-10/bin/psql -p 1921 mydb 
psql (10.2) 
Type "help" for help. 
mydb=# CREATE TABLESPACE myspc LOCATION '/pgdata/10/mytblspc'; 
CREATE TABLESPACE 
mydb=# \db 
List of tablespaces 
Name | Owner | Location 


myspc | postgres | /pgdata/10/mytblspc 
pg_default | postgres | 
pg_global | postgres | 

(3 rows) 


当 创 建 莉 的 数据 库 或 表 时 ， 便 可 以 指定 刚才 创 


建 的 表 空 间 ， 如 下 所 示 : 


mydb=# CREATE TABLE t(id SERIAL PRIMARY KEY, ival int) TABLESF 
CREATE TABLE 





由 于 表 空 间 定 义 了 存储 的 位 置 ， 在 创建 数据 库 
对 象 时 ， 会 在 当前 的 表 空 间 目 录 创 建 一 个 以 数据 库 
OID 命 名 的 目录 ， 访 数据 库 的 所 有 对 象 将 保存 在 这 
个 目录 中 ， 除 非 单 独 指 定 表 空间 。 例 如 我 们 一 直 使 
用 的 数据 库 mydb， 从 pg_database 系 统 表 查 询 它 的 
OID， 如 下 所 示 : 











mydb=# SELECT oid,datname FROM pg_database WHERE datname = 'my 
oid | datname 
Ve DN 
16384 | mydb 
(1 row) 


通过 以 上 查询 可 知 mydb 的 OID 为 16384， 我 们 
就 可 以 知道 mydb 的 表 、 索 引 都 会 保存 在 
$sPGDATA/base/16384 这 个 目录 中 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ 11 /pgdata/10/data/base/16384/ 
-rw------- 1 postgres postgres 16384 Nov 28 21:22 3712 


-rw------- 1 postgres postgres 8192 Nov 28 21:22 3764_vm 


(3) 数据 文件 命名 


在 数据 库 中 创建 对 象 ， 例 如 表 、 有 索引 时 首先 会 
为 表 和 索引 分 配 段 。 在 PostgreSQL 中 ， 每 个 表 和 索 
引 都 用 一 个 文件 存储 ， 新 创建 的 表 文 件 以 表 的 OID 
命名 ， 对 于 大 小 超出 1GB 的 表 数 据 文件 ， 
PostgreSQL 会 目 动 将 其 切 分 为 多 个 文件 来 存储 ， 切 
分 出 的 文件 用 OID.< 顺 序号 > 来 命名 。 但 表 文 件 并 不 
是 总 是 “DOID.< 顺 序号 >" 命 名， 实际 上 真正 管理 表 文 
件 的 是 pg_class 表 中 的 relfilenode 字 段 的 值 ， 在 新 创 
建 对 象 时 会 在 pg_class 系 统 表 中 插入 该 表 的 记录 ， 
默认 会 以 OID 作 为 relfilenode 的 值 ， 但 经 过 几 次 
VACUUM、TRUNCATE 操 作 之 后 ，relfilenode 的 值 
会 发 生变 化 。 


举例 如 下 : 














mydb=# SELECT oid,relfilenode FROM pg_class WHERE relname = 't 
oid | relfilenode 


16387 | 16387 
(1 row) 
mydb=# \! ls -1 /pgdata/10/data/base/16384/16387* 
-rw------- 1 postgres postgres 8192 Mar 26 22:22 /pgdata/10/de 


在 默认 情况 下 ，tbl 表 的 OID 为 16387， 
relfilenode 也 是 16387， 表 的 物理 文件 
为 “/pgdata/10/data/base/16384/16387”。 依 次 


TRUNCATE 清 空 tl 表 的 所 有 数据 ， 如 下 所 示 : 


mydb=# TRUNCATE tbl; 

TRUNCATE TABLE 

mydb=# CHECKPOINT; 

CHECKPOINT 

mydb=# \! ls -1 /pgdata/10/data/base/16384/16387* 

ls: cannot access /pgdata/10/data/base/16384/16387*: No such f 





通过 上 述 操作 之 后 ，tb] 表 原先 的 物理 文 
件 “/pgdata/10/data/base/16384/16387” 已 经 不 存在 
了 ， 那 么 tb] 表 的 数据 文件 是 哪 一 个 ? 





postgres@160.40:1922/mydb=# select oid,relfilenode from pg_cla 
oid | relfilenode 
ed ey pS 


16387 | 24591 
(1 row) 
postgres@160.40:1922/mydb=# \! ls -1 /pgdata/10/data/base/1638 
-rw------- 1 postgres postgres 0 Apr 2 21:24 /pgdata/10/data/ 


如 上 所 示 ， 再 次 查询 pg_class 表 得 知 tbl 表 的 数 
据 文件 已 经 成 
为 “/pgdata/10/data/base/16384/24591”， 它 的 命名 规 
则 为 <relfilenode>.< 顺 序号 >。 


在 也 ] 测 试 表 中 写 入 一 些 测试 数据 ， 如 下 所 示 : 





mydb=# insert into tbl (ival,description,created time) select 
INSERT © 16000000 


但 看 表 的 大 小 ， 如 下 所 示 : 


mydb=# SELECT pg_size pretty(pg_relation_ size('tbl'::regclass) 
pg_size_pretty 


1068 MB 
(1 row) 


通过 上 述 命令 看 到 tbl 表 的 大 小 目前 为 
1068MB， 执 行 一 些 UPDATE 操 作 后 再 次 查看 数据 
文件 ， 如 下 所 示 : 





/mydb=# \! ls -lh /pgdata/10/data/base/16384/24591* 


-rw------- 1 postgres postgres 1,0G Apr 7 08:44 /pgdata/10/de 
-rw------- 1 postgres postgres 383M Apr 7 08:44 /pgdata/10/de 
-rw------- 1 postgres postgres 376K Apr 7 08:44 /pgdata/10/de 
-rw------- 1 postgres postgres 8.0K Apr 7 08:44 /pgdata/10/de 


如 前 文 所 述 ， 数 据 文 件 的 命名 规则 为 
<relfilenode>.< 顺 序号 >，tb] 表 的 大 小 超过 1GB，tbl 
表 的 relfilenode 为 24591， 超 出 1GB 之 外 的 数据 会 按 
每 GB 切割 ， 在 文件 系统 中 查看 时 束 是 名 称 为 
24591.1 的 数据 文件 。 在 上 述 输出 结果 中 ， 后 缀 为 
_fsm 和 -mm 的 这 两 个 表 文 件 的 所 属 文件 征 是 容 | 几 空间 
英 射 表 文 件 和 可 见 性 映射 表 文 件 。 空 闲 空 间 映 射 用 
来 映射 表 文 件 中 可 用 的 空间 ， 可 见 性 映射 表 文 件 跟 
踩 哪些 页 面 只 包含 已 知 对 所 有 活动 事务 可 见 的 元 




















组 ， 它 也 跟踪 哪些 页 面 只 包含 未 被 冻结 的 元 组 。 图 
5-2 显 示 了 PostgreSQL 数据 目录 、 表 空间 以 及 文件 的 
结构 概貌 。 
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图 5-2 ” PostgreSQL 数据 目录 和 文件 结构 
(4) 表 文件 内 部 结构 


在 PostgreSQL 中 ， 将 保存 在 磁盘 中 的 块 称 为 
Page， 而 将 内 存 中 的 块 称 为 Buffer， 表 和 索引 称 为 
Relation， 行 称 为 Tuple， 如 图 5-3 所 示 。 数 据 的 读 写 
是 以 Page 为 最 小 单位 ， 每 个 Page 默 认 大 小 为 8kB， 
在 编译 PostgreSQL 时 指定 的 BLCKSZ 大 小 决定 Page 
的 大 小 。 每 个 表 文 件 由 多 个 BLCKSZ 字 节 大 小 的 
Page 组 成 ， 每 个 Page 包 含 若 干 Tuple。 对 于 WO 性 能 
较 好 的 硬件， 并 且 以 分 析 为 主 的 数据 库 ， 适 当 增 加 





BLCKSZ 大 小 可 以 小 幅 提升 数据 库 性 能 。 
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图 5-3 Page 内 部 结构 


PageHeader 描 述 了 一 个 数据 页 的 页 头 信息 ， 包 
含 页 的 一 些 元 信息 。 它 的 结构 及 其 结构 指针 
PageHeader 有 的 定义 如 下 : 








“ pd_lsn: 在 ARIES Recovery Algorithm 的 解释 
中 ， 这 个 lsn 称 为 PageLSN， 它 确定 和 记录 了 最 后 更 
改 此 页 的 xlog 记 录 的 LSN， 把 数据 页 和 和 WAL 日志 
联 ， 用 于 恢复 数据 时 校 验 日 志文 件 和 数据 文件 的 一 
致 性 ; pd_lsn 的 融 位 为 xlogid， 低 位 记录 偏 移 量 ; 因 
为 历史 原因 ，064 位 的 LSN 保 存 为 两 个 32 位 的 值 。 


` pg_flags: 标识 页 面 的 数据 存储 情况 。 


“ pd_special: 指向 索引 相关 数据 的 开始 位 置 ， 
该 项 在 数据 文件 中 为 空 ， 主 要 是 针对 不 同 索引 。 


pd_lower: 指向 空闲 空间 的 起 始 位 置 。 
- pd_upper: 指向 空闲 空间 的 结束 位 置 。 


* pd_pagesize_version: 不 同 的 PostereSQL 版 本 
的 页 的 格式 可 能 会 不 同 。 


“ pd_linp[1]: 行 指针 数组 ， 即 图 5-3 中 的 
Item1，Item2，...，Itemn， 这 些 地 址 指向 Tuple 的 存 
储 位 置 。 


如 条 一 个 表 由 一 个 只 包含 一 个 堆 元 组 的 页 面 组 
成 。 访 页 面 的 pd_lower 指 回 第 一 行 指针 ， 并 且 行 指 
针 和 pd_upper 都 指 问 第 一 个 堆 元 组 。 当 第 二 个 元 组 
被 插入 时 ， 它 被 放置 在 第 一 个 元 组 之 后 。 第 二 行 指 
针 被 压 入 第 一 行 ， 并 指 同 第 二 个 元 组 。pd_lower 更 
改 为 指 回 第 二 行 指针 ，pd_upper 更 改 为 第 二 个 堆 元 
组 。 此 页 面 中 的 其 他 头 数 据 ( 例 如 ，pd_lsn、 
pg_checksum、pg flag) 也 被 重 与 为 适当 的 值 。 


当 从 数据 库 中 检索 数据 时 有 两 种 典型 的 访问 方 
法 ， 顺 序 扫描 和 B 树 索引 扫描 。 顺 序 扫 摘 通 过 扫 质 
每 个 页 面 中 的 所 有 行 指针 顺序 读 取 所 有 页 面 中 的 所 
有 元 组 。B 树 索引 扫描 时 ， 索 引文 件 包 含 索 引 元 
组 ， 每 个 元 组 由 索引 键 和 指向 目标 堆 元 组 的 TID 组 
成 。 如 果 找 到 了 正在 查找 的 键 的 索引 元 组 ， 















































PostgreSQL 使 用 获取 的 TID 值 读 取 所 需 的 堆 元 组 。 


每 个 Tuple 包 含 两 部 分 的 内 容 ， 一 部 分 为 
HeapTupleHeader， 用 来 保存 Tuple 的 元 信息 ， 如 图 
5-4 所 示 ， 包 含 该 Tuple 的 OID、xmin、cmin 等 ; 男 
一 部 分 为 HeapTuple， 用 来 保存 Tuple 的 数据 。 


Header 


hoff length oftuple header 
bits - bit map representing NULLs 





图 5-4 Tupe 内 部 结构 
图 5-5 展 示 了 一 个 完整 的 文件 布局 。 


postgresql.auto.conf 
postgresqlconf 
postmaster.opts 
postmasterpid 





5.2 ”进程 结构 


PostgreSQL 是 一 用 户 一 进程 的 客户 闹 / 服 务 兹 有 的 
应 用 程序 。 数 据 库 局 动 时 会 局 动 厂 干 个 进程 ， 其 中 
有 postmaster〈 和 守护 进程 ) 、postgres《〈 服 务 进 
程 ) 、syslogger、checkpointer、bgwriter、walwriter 


等 辅助 进程 。 








5.2.1 ”守护 进程 与 服务 进程 


站 和 完 从 postmaster〔 守 护 进 程 》 说 起 。 
postmaster 进 程 的 主要 职 黄 有: 


“ 数据 库 的 启 停 。 


让 


每 个 客户 端 连 接 fork 单 独 的 posteres 服 务 进 
程 。 


. 当 服 务 进 程 出 错时 进行 修复 。 
管理 数据 文件 。 
` 管理 与 数据 库 运 行 相关 的 辅助 进程 。 


当 客 户 疹 调用 接口 库 回 数据库 发 起 连接 请 求 ， 
守护 进程 postmaster 会 fork 单 独 的 服务 进程 postgres 
为 客户 问 提 供 服务 ， 此 后 将 由 postgres 进 程 为 客户 
并 执 行 各 种 命令 ， 客 户 问 也 不 再 震 要 postmaster 中 
转 ， 直 接 与 服务 进程 postgres 通 信 ， 直 至 客户 端 断 
开 连 接 ， 如 图 5-6 所 示 。 


-Se 
initial connection request postmaster fork postg res | 


SQL Queries 


图 5-6 客户 端 与 服务 器 端 进程 


PostgreSQL 使 用 基于 消 妃 的 协议 用 于 前 端 和 后 
端 〈 服 务 器 和 客户 端 ) 之 间 通 信 。 通 信 都 是 通过 一 
个 消息 流 进 行 ， 消 息 的 第 一 个 字 贡 标识 消息 类 型 ， 
后 面 跟 痢 的 四 个 字 节 声明 消息 剩 下 部 分 的 长 度 ， 访 
协议 在 TCP/IP 和 Unix 域 套 接 字 上 实现 。 服 务 右 作业 
之 间 通 过 信号 和 共享 内 存 通信 ， 以 保证 并 发 访问 时 
的 数据 完整 性 ， 如 图 5-7 所 示 。 
































5.2.2 ”辅助 进程 


除了 守护 进程 postmaster 和 服务 进程 postgres 
外 ，PostgreSQL 在 运行 期 间 还 需要 一 些 辅助 进程 才 
能 工作 ， 这 些 进程 包括 : 


background wtiter: 也 可 以 称 为 bewtiter 进 
程 ，bgwtitet 进 程 很 多 时 候 都 是 在 休眠 状态 ， 每 次 唤 
醒 后 它 会 搜索 共享 缓冲 池 找 到 被 修改 的 页 ， 并 将 它 
们 从 共享 缓冲 池 刷 出 。 






postmaster 





共享 内 存 


图 5-7 服务 端 进 程 与 共享 内 存 


. autovacuum launcher: 自动 清理 回收 垃圾 进 
程 。 


. WAL wrtitet: 定期 将 WAL 缓 冲 区 上 的 WAL 数 
据 写 入 磁盘 。 


. statistics collectot : 统计 信息 收集 进程 。 


:logging collector: 日 志 进 程 ， 将 消息 或 错误 
信息 写 入 日 志 。 


.afchivet: WAL 归 档 进 程 。 


-一 一 NN 


图 5-8 显 示 了 服务 右 问 进程 与 辅助 进程 和 
postmaster 守 护 进 程 的 关系 。 


2 ss 
postmaster postgres 


oo 
| Tv a 
图 5-8 ”服务 端 进程 与 辅助 进程 


checkpointer: 检查 点 进程 。 

















5.3 ”内 存 结 构 


PostgreSQL 的 内 存 分 为 两 大 类 : 本 地 内 存 和 共 
享 内 存 ， 另 外 还 有 一 些 为 辅助 进程 分 配 的 内 存 等 ， 
下 和 面 简单 介绍 本 地 内 存 和 共享 内 存 的 概貌 。 


5.3.1 本 地 内 存 


本 地 内 存 由 每 个 后 端 服务 进程 分 配 以 供 自 己 使 
用 ， 当 后 端 服务 进程 被 fork 时 ， 每 个 后 端 进程 为 查 
询 分 配 一 个 本 地 内 存 区 域 。 本 地 内 存 由 三 部 分 组 
成 : work_ mem、maintenance_work_mem 和 
temp_buffers 。 





. wotk_mem: 当 使 用 ORDER BY 或 DISTINCT 
操作 对 元 组 进行 排序 时 会 使 用 这 部 分 内 存 。 


. maintenance_wotk_mem: 维护 操作 ， 例 如 
VACUUM、REINDEX、CREATE INDEX 等 操作 使 
用 这 部 分 内 存 。 


“ temp_buffers: 临时 表 相 关 操 作 使 用 这 部 分 内 
存 。 


二 
I 


5.3.2 ” 共 圣 内存 


、 





共 至 月 存在 PostgreSQL 服 务 器 月 劲 时 分 配 ， 由 
所 有 后 端 进 程 共同 使 用 。 共 有 内 存 主要 由 三 部 分 组 
成 : 








shared buffer pool: PostgteSQL 将 表 和 索引 中 
的 页 面 从 持久 存储 装载 到 这 里 ， 并 直接 操作 它们 。 


. WAL buffer: WAL 文 件 持久 化 之 前 的 缓冲 
区 。 


.CommitLog buffer: PostereSQL 在 Commit Log 
中 保存 事务 的 状态 ， 并 将 这 些 状 态 保留 在 共享 内 存 
缓冲 区 中 ， 在 整个 事务 处 理 过程 中 使 用 。 


图 5-9 显 示 了 内 存 的 结构 概貌。 






postmaster 进程 


postgres 进程 


时 
maintenance_ work mem i 
work mem temp buffers 





共享 内 存 池 


WAL buffers CommitLog 


图 5-9 ”内 存 结 构 














5.4 本 章 小 结 


本 和 章 从 全 局 角度 简单 讨论 了 PostgreSQL 数 据 库 
的 文件 存储 ， 介 绍 了 构成 数据 库 的 参数 文件 、 数 据 
文件 布局 ， 以 及 表 空 间 、 数 据 库 、 数 据 库 对 象 的 逻 
辑 存 储 结构 ， 人 简单 介绍 了 PostgreSQL 的 守护 进程 、 
服务 进程 和 辅助 进程 ， 介 绍 了 客户 端 与 数据 库 服务 
器 连接 交互 方式 ， 从 数据 库 目 录 到 表 文 件 到 最 小 的 
数据 块 ， 从 大 到 小 逐 层 分 析 了 重要 的 数据 文件 。 通 
过 这 些 简 单 介绍 ， 只 能 够 括 探 到 PostgreSQL 体 系 的 
冰山 一 角 ，PostgreSQL 体 系 结构 中 的 每 一 个 知识 点 
都 有 足够 丰富 的 内 容 ， 值 得 深入 学 习 。PostgreSQL 
有 着 多 年 的 技术 沉 深 ， 清 晰 的 代码 结构 ， 通 过 源 代 
人 码 深入 学 习 可 以 事半功倍 。 























第 6 革 “并行 租 艾 


了 解 Oracle 的 朋友 应 该 知道 Oracle 文 持 并 行 查 
询 ， 比 如 SELECT、UPDATE、DELETE 大 事务 开 
局 并 行 功 能 后 能 利用 多 核 CPU， 从 而 充分 发 挥 便 件 
性 能 ， 提 升 大 事务 处 理 效率 ，PostgreSQL 在 9.6 版 本 
前 还 不 文 持 并 行 得 询 ，SQL 无 法 利用 多 核 CPU 提 升 
性 能 ，9.6 版 本 开始 支持 并 行 但 询 ， 只 是 9.6 版 本 的 
并 行 租 询 所 文 持 的 范围 非常 有 限 ， 例 如 只 在 顺序 扫 
描 、 多 表 关 联 、 聚 合 查 询 中文 持 并 行 ，10 版 本 增强 
了 并 行 查 询 功 能 ， 例 如 增加 了 并 行 系 引 扫 描 、 并 行 
index-only 扫 描 、 并 行 bitmap heap 扫 描 等 ， 本 章 将 介 
绍 PostgreSQL10 的 并 行 查询 功能 。 











6.1 ”并行 租 询 相 关 配 置 参数 


介绍 PostgreSQL 并 行 得 询 之 前 先 来 介绍 并 行 得 
询 的 几 个 重要 参 数 。 





1.max_worker_processes (integer) 


设置 系统 文 持 的 最 大 后 合 进程 数 ， 默 认 值 为 
8， 如 果 有 备 库 ， 备 库 上 此 参数 必须 大 于 或 等 于 主 
库 上 的 此 参数 配置 值 ， 此 参数 调整 后 需 重 局 数据 库 
3 














2.max_parallel workers (integer) 


设置 系统 文 持 的 并 行 查 询 进程 数 ， 默 认 值 为 
8， 此 参数 受 max_worker_processes 参 数 限制 ， 设 置 
此 参数 的 值 比 max_worker_processes 值 高 将 无 效 。 


当 调 整 这 个 参数 时 建议 同时 调整 
max_parallel_workers_per_gather 参 数值 。 


3.max_parallel_ workers per_ gather (integer) 


设置 允许 局 用 的 并 行进 程 的 进程 数 ， 默 认 值 为 
2， 设 置 成 0 表示 茶几 并 行 但 询 ， 此 参数 受 


max_Worker_processes 参 数 和 max_parallel_workers 
参数 限制 ， 因 此 并 行 得 询 的 实际 进程 数 可 能 比 预期 
的 少 ， 并 行 租 询 比 非 并 行 租 询 消 耗 更 多 的 CPU、 

IO、 内 存 资 源 ， 对 生产 系统 有 一 定 影响 ， 使 用 时 需 
考虑 这 方面 的 因素 ， 这 三 个 参数 的 配置 值 大 小 关系 
通常 如 下 所 示 : 











max_worker_processes>max_parallel workers>max_parallel workers 


4.parallel_setup_cost (floating point) 


设置 优化 磺 尼 动 并 行进 程 的 成 本 ， 黑 认为 
1000。 


5.parallel tuple_cost (floating point ) 


设置 优化 器 通过 并 行进 程 处 理 一 行 数 据 的 成 
本 ， 默 认为 0.1。 


6.min_parallel table_scan_size (integer) 


设置 开局 并 行 的 条 件 之 一 ， 表 占用 空间 小 于 此 
值 将 不 会 开户 并 行 ， 并 行 顺 序 扫描 场景 下 扫 拉 的 数 
据 大 小 通 第 等 于 表 大 小 ， 上 默认 值 为 8MB。 





7.min_parallel_index_scan_size (integer) 


设置 开启 并 行 的 条 件 之 一 ， 实 际 上 并 行 索引 扫 
摘 不 会 扫 摘 索引 所 有 数据 块 ， 只 是 扫描 索引 相关 数 
据 块 ， 默 认 值 为 512kb。 


8.force_parallel mode (enum) 


强制 开启 并 行 ， 一 般 作 为 测试 目的 ，OLTP 和 后 
产 环境 开启 需 慎 重 ， 一 般 不 建议 开启 。 


本 章节 中 postgresdql.conf 配 置 文件 设置 了 以 下 参 
数 : 








max_worker_processes = 16 

max_parallel workers_per_gather = 4 # taken from max_para 
max_parallel workers = 8 

parallel tuple cost = 0.1 

parallel setup_cost = 1000.0 

min_parallel table_ scan_ size = 8MB 

min_parallel_ index_scan_size = 512KB 

force_ parallel mode = of 


本 章节 将 演示 并 行 查 询 相 关 测 试 ， 测 试 环境 为 
一 台 4CPU、8GB 内 存 的 虚拟 机 。 


> 注意 并行 查 询 进 程 数 预 估 值 由 参数 
max_patallel _ wotkets_pet_gathetf 控 制 ， 并 行进 程 数 预 
估 值 是 指 优化 器 解析 SQL 时 执行 计划 预计 会 启用 的 
并 行进 程 数 ， 而 实际 执行 查询 时 的 并 行进 程 数 受 参 


数 max_patallel wortkers、max_worker_processes 的 限 
制 ， 也 就 是 说 SQL 实 际 获 得 的 并 行进 程 数 不 会 超过 
这 两 个 参数 设置 的 值 ， 比 如 max_worker_processes 参 
数 设置 成 2，max_parallel_wotkers_per_gathet 参 数 设 
置 成 4， 不 考虑 其 他 因素 的 情况 下 ， 并 行 查询 实际 
的 并 行进 程 数 将 会 是 2， 另 一 方面 并 行进 程 数 据 会 
受 min_patallel_table_scan_size 参 数 的 影响 ， 即 表 的 大 
小 会 影响 并 行进 程 数 。 并 行 查询 执行 计划 中 的 
Workers Planned 表 示 执 行 计划 预 估 的 并 行进 程 数 ， 
Worker Launched 表 示 并 行 查询 实际 获得 的 并 行进 程 
数 。 


6.2 “并行 扫描 


上 一 小 节 介 绍 了 PostgreSQL 并 行 查 询 相 关 参 
数 ， 接 下 来 通过 示例 演示 并 行 扫 摘 ， 包 括 并 行 顺序 
扫描 、 并 行 索引 扫描 、 并 行 inpdex-only 扫 摘 、 并 行 
bitmap heap 扫 摘 场 景 ， 测 试 过 程 中 会 对 上 一 小 节 提 
到 的 部 分 参数 进行 设置 ， 通 过 实验 了 解 这 些 参 数 的 





6.2.1 并 行 顺 序 扫 擂 


介绍 并 行 顺序 扫描 之 前 先 介绍 顺序 扫 摘 
(sequential scan〉， 顺 序 扫描 人 通常 也 称 之 为 全 表 扫 
描 ， 全 表 扫 摘 会 扫 摘 整 张 表 数据 ， 当 表 很 大 时 ， 全 
表 扫 描 会 占用 大 量 CPU、 内 存 、IO 资 源 ， 对 数据 库 
性 能 有 较 大 影响 ， 在 OLTP 事 务 型 数据 库 系 统 中 应 


首先 创建 一 张 测试 表 ， 并 插入 5000 万 数据 ， 如 
下 所 示 : 











CREATE TABLE test_ big1( 

Id int4, 

name character varying(32), 

create time timestamp without time zone default clock_ timestanr 


INSERT INTO test_bigi(id,name) 
SELECT n，n|l| '_test' FROM generate series(1,50000000) n ; 





一 个 顺序 扫描 的 示例 如 下 所 示 : 





mydb=> EXPLAIN SELECT * FROM test_big1 WHERE name= '1 test ' ， 
QUERY PLAN 
Seq Scan on test bigi (cost=0.00..991664.00 rows=1 width= 
Filter: ((name)::text = '1 test'::text) 
(2 rows) 





以 上 执行 计划 Seq Scan on test_big1 说 明 表 
test_bigl1 上 进行 了 顺序 扫描 ， 这 是 一 个 典型 的 顺序 
扫 摘 执行 计划 ，PostgreSQL 中 的 顺序 扫描 在 9.6 版 本 
开始 文 持 并 行 处 理 ， 并 行 顺序 扫描 会 产生 多 个 子 进 
程 ， 并 利用 多 个 逻辑 CPU 并 行 全 表 扫 摘 ， 一 个 并 行 
顺序 扫描 的 执行 计划 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM test bigi1 WHERE name="'1 t 
QUERY PLAN 
Gather (cost=1000.00..523914.10 rows=1 width=25) (actual tir 
Workers Planned: 4 
Workers Launched: 4 
-> Parallel Sed Scan on test bigi (cost=0.00..522914.00 r 
time=1083.280..1355.685 rows=0 loops=5) 
Filter: ((name)::text = '1 test'::text) 
Rows Removed by Filter: 10000000 
Planning time: 0.085 ms 
Execution time: 1367.248 ms 
(8 rows) 


[| 


注意 以 上 执行 计划 加 粗 的 三 行 ，Workers 
Planned 表 示 执 行 计划 预 估 的 并 行进 程 数 ，Worker 
Launched 表 示 但 询 实 际 获得 的 并 行进 程 数 ， 这 里 
Workers Planned 和 Worker Launched 值 都 为 4， 
Parallel Seq Scan on test_big1 表 示 进 行 了 并 行 顺序 扫 
描 ，Planning time 表 示 生 成 执行 计划 的 时 间 ， 
Execution time 表 示 SQL 实 际 执行 时 间 ， 从 以 上 可 以 
看 出 ， 开 局 4 个 并 行 时 SQL 实际 执行 时 间 为 1367 至 
秒 。 接 下 来 测试 不 开局 并 行 的 SQL 性 能 ， 由 于 
max_parallel workers_per_gather 参 数 设置 成 了 4， 议 
置 成 0 表示 关闭 并 行 ， 在 会 话 级 别 设置 此 参数 值 为 
0， 如 下 所 示 : 





mydb=> SET max_parallel workers_ per_gather =0; 
SET 


不 开局 并 行 ， 执 行 计划 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT * FROM test bigi1 WHERE name="'1 t 
QUERY PLAN 
Seq Scan on test bigi (cost=0.00..991664.00 rows=1 width=25) 
(actual time=0.022. .5329.100 rows=1 loops=1) 
Filter: ((name)::text = '1 test'::text) 
Rows Removed by Filter: 49999999 
Planning time: 0.163 ms 
Execution time: 5329.136 ms 
(5 rows) 


不 开局 并 行 时 此 SQL 执行 时 间 为 5329 坚 秒 ， 比 
开启 并 行 查 询 性 能 低 了 3 倍 左右 。 


6.2.2 “并行 索 引 扫 摘 


介绍 并 行 索引 扫 摘 之 前 ， 先 简单 介绍 下 索引 扫 
描 (index scan) ， 在 表 上 创建 索引 后 ， 进 行 索 引 扫 
摘 的 执行 计划 如 下 所 示 : 


mydb=> EXPLAIN SELECT * FROM test_1 WHERE id=1; 
QUERY PLAN 


Index Scan using test_1 pkey on test_1 (cost=0.43..4.45 rows 
Index Cond: (id = 1) 
(2 rows ) 


Index Scan using 表 示 执 行 计划 预计 进行 索引 扫 
接 ， 索 引 扫 描 也 支持 并 行 ， 称 为 并 行 乏 引 扫描 
(Parallel index scan) ， 本 市 演示 并 行 案 引 扫 摘 ， 
首先 在 表 test_bigl1 上 创建 索引 ， 如 下 所 示 : 


mydb=> CREATE INDEX idx_test big1 id ON test bigi1 USING btree 
CREATE INDEX 





执行 以 下 SQL， 统 计 ID 小 于 1 千 万 的 记录 数 ， 
如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT count(name) FROM test big1 WHERE 
QUERY PLAN 
Finalize Aggregate (cost=236183.98..236183.99 rows=1 width=8) 
(actual time=753.392. .753.392 rows=1 loops=1) 
-> Gather (cost=236183.96..236183.97 rows=4 width=8) 
(actual time=750. 133..753.384 rows=5 loops=1) 
Workers Planned: 4 
Workers Launched: 4 
-> Partial Aggregate (cost=235183.96..235183.97 rows 
-> Parallel Index Scan using idx_test_big1_ id 
(cost=0.56. .228921.05 rows=2505162 widt 
e=0.029..566.830 rows=2000000 loops=5) 
Index Cond: (id < 10000000) 
Planning time: 0.116 ms 
Execution time: 762.351 ms 
(9 rows) 








根据 以 上 执行 计划 可 以 看 出 ， 进 行 了 并 行 索引 
扫描 ， 开 局 了 4 个 并 行进 程 ， 执 行 时 间 为 762 坚 秘 ， 
在 会 话 级 别 关 闭 并 行 得 询 ， 如 下 所 未 : 





mydb=> SET max_parallel workers_ per_gather =0 
SET 





再 次 执行 以 上 奏 询 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(name) FROM test_big1 WHERE 
QUERY PLAN 
Aggregate (cost=329127.54..329127.55 rows=1 width=8) (actual 
-> Index Scan using idx_test_ bigl1 id on test big1i (cost= 
ws=9999999 loops=1) 
Index Cond: (id < 10000000) 
Planning time: 0.132 ms 
Execution time: 2636.920 ms 





(5 rows ) 


从 执行 计划 看 出 进行 了 索引 扫描 ， 没 有 开局 并 
行 ， 执 行 时 间 为 2636 坚 秒 ， 比 并 行 索 引 扫 描 性 能 低 
很多。 


= 注意 。 PostgreSQL10 对 并 行 扫描 的 支持 将 
提升 范围 扫描 SQL 的 性 能 ， 由 于 开启 并 行将 消耗 更 
多 的 CPU、 内 存 、IO 资 源 ， 设 置 并 行进 程 数 时 得 合 
理 考虑 ， 另 一 方面 ， 目 前 PostgreSQL 10 暂 不 支持 非 
bttree 索 引 类 型 的 并 行 索引 扫描 。 


6.2.3 ”并 行 ipdex-only 扫 质 


了 解 并 行 ndex-only 扫 描 之 前 首先 介绍 下 index- 
only 扫 描 ， 顾 名 思 义 ，index-only 扫 描 是 指 只 需 扫 描 
索引 ， 也 就 是 说 SQL 仅 根据 索引 束 能 获得 所 需 检索 
的 数据 ， 而 不 需要 通过 索引 回 表 查 询 数 据 。 例 如 ， 
使 用 SQL 统 计 ID 小 于 100 万 的 记录 数 ， 在 开始 测试 
之 前 ， 先 在 会 话 级 别 关 闭 并 行 ， 如 下 所 示 




















mydb=> SET max_parallel workers_ per_gather =0; 
SET 


之 后 执行 以 下 SQL， 合 看 执行 计划 ， 如 下 所 


YE 


和 修 : 





mydb=> EXPLAIN SELECT count(*) FROM test_big1 WHERE id<100000C 
QUERY PLAN 
Aggregate (cost=36060.91..36060.92 rows=1 width=8) 
-> Index Only Scan using Idx_test_big1 id on test_big 
Index Cond: (id < 1000000) 





(3 rows ) 





以 上 执行 计划 主要 看 Index Only Scan 这 一 行 ， 
DT 索引 ， 统 计 记 录 数 不 需要 再 回 
表 碍 询 其 他 信息 ， 因 此 进行 了 index-only 扫 描 ， 接 
下 来 使 用 EXPLAIN ANALYZE 执 行 此 SQL， 如 下 所 
外: 














mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test big1 WHERE id 
QUERY PLAN 
Aggregate (cost=35969.89..35969.90 rows=1 width=8) 
(actual time=253.571..253. 571 rows=1 loops=1) 
-> Index Only Scan using idx_test_ bigi1 id on test_big 
Index Cond: (id < 1000000) 
Heap Fetches: 999999 
Planning time: 0.103 ms 
Execution time: 253.617 ms 
(6 rows) 








执行 时 间 为 253 毫 秒 ，index-only 扫 描 支 持 并 
行 ， 称 为 并 行 index-only 扫 接 ， 接 看 测试 并 行 index- 
only 扫 描 ， 在 会 话 级 别 开 局 并 行 功能 ， 如 下 所 示 : 





mydb=> SET max_parallel workers_ per_gather TO default; 
SET 





再 次 执行 以 下 得 询 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test big1 WHERE id 
QUERY PLAN 
Finalize Aggregate (cost=26703.66..26703.67 rows=1 width= 
(actual time=81. 285..81.285 rows=1 loops=1) 
-> Gather (cost=26703.64..26703.65 rows=4 width=8) 
(actual time=81. 121..81.277 rows=5 loops=1) 
Workers Planned: 4 
Workers Launched: 4 
-> Partial Aggregate (cost=25703.64..25703.65 rc 
-> Parallel Index Only Scan using idx_ test_bi 
(actual time=0.045..59.398 rows=200000 1 
Index Cond: (id < 1000000) 
Heap Fetches: 183366 
Planning time: 0.113 ms 
Execution time: 83.364 ms 
(10 rows) 





下 


以 上 执行 计划 主要 看 Parallel Index Only Scan 这 
段 ， 进行 了 并 行 index-only 扫 描 ， 执 行 时 间 降 为 83 
坚 秒 ， 开 局 并 行 后 性 能 提升 了 不 少 。 








6.2.4 ”并 行 bitmap heap 扫 质 


介绍 并 行 bitmap heap 扫 摘 之 前 先 了 解 下 Bitmap 
Index 扫 摘 和 Bitmap Heap 扫 摘 ， 当 SQL 的 where 条 件 
中 出 现 or 时 很 有 可 能 出 现 Bitmap Index 扫 描 ， 如 下 


所 示 : 





mydb=> EXPLAIN SELECT * FROM test bigi1 WHERE id=1 OR id=2; 
QUERY PLAN 
Bitmap Heap Scan on test_ bigi (cost=5.15..9.17 rows=2 width=2 
Recheck Cond: ((id = 1) OR (id = 2)) 
-> BitmapOr (cost=5.15..5.15 rows=2 width=0) 
-> Bitmap Index Scan on idx_ test bigi1 id (cost=0.00. 
Index Cond: (id = 1) 
-> Bitmap Index Scan on idx_ test bigi1 id (cost=0.00. 
Index Cond: (id = 2) 








(7 rows) 





从 以 上 执行 计划 看 出 ， 首 先 执行 两 次 Bitmap 
Index 扫 摘 获 取 索 引 项 ， 之 后 将 Bitmap Index 扫 朱 获 
取 的 结果 合 起 来 回 表 奉 询 ， 这 时 在 表 test_big1 上 进 
行 了 Bitmap Heap 扫 描 。Bitmap Heap 扫 描 也 支持 并 
行 ， 执 行 以 下 SQL， 在 得 询 条 件 中 将 ID 的 选择 范围 
扩大 。 











EXPLAIN ANALYZE SELECT count(*) FROM test_big1 WHERE id <1000C 





执行 计划 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test big1 WHERE id 
QUERY PLAN 
Finalize Aggregate (cost=406220.88..406220.89 rows=1 width=8) 
(actual time=241. 186..241.186 rows=1 loops=1) 
-> Gather (cost=406220.46..406220.87 rows=4 width=8) 


(actual time=241. 033..241.174 rows=5 loops=1) 
Workers Planned: 4 
Workers Launched: 4 
-> Partial Aggregate (cost=405220.46..405220.47 rows 
-> Parallel Bitmap Heap Scan on test big1i (cost= 
Recheck Cond: ((id < 1000000) OR (id > 4900000 
Heap Blocks: exact=2982 
-> BitmapOr (cost=28053.14..28053.14 rows=20 
-> Bitmap Index Scan on idx_ test_ big1 id 
(actual time=42.187..42.187 rows=999 
Index Cond: (id < 1000000) 
-> Bitmap Index Scan on idx_ test_ big1 id 
(cost=0.00.. 12804.35 rows=986105 wi 
(actual time=41.467..41.467 rows=10 
Index Cond: (id > 49000000 ) 








Planning time: 0.157 ms 
Execution time: 242.824 ms 
(15 rows ) 





从 以 上 执行 计划 看 出 进行 了 并 行 Bitmap Heap 
扫描 ， 并 行进 程 数 为 4， 执 行 时 间 为 242ms。 在 会 话 





级 关闭 并 行 租 询 ， 如 下 所 示 : 





mydb=> SET max_parallel workers_per_gather =0; 


SET 





再 次 执行 以 上 SQL， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test big1i WHERE id 


QUERY PLAN 


Aggregate (cost=432494.42..432494.43 rows=1 width=8) (actual 


-> 


Bitmap Heap Scan on test big1i (cost=28053.14..427345. 
Recheck Cond: ((id < 1000000) OR (id > 49000000)) 

Heap Blocks: exact=13724 

-> BitmapOr (cost=28053.14..28053.14 rows=2081101 wi 


(actual time=84.782..84.782 rows=0 loops=1) 
-> Bitmap Index Scan on Idx_test_big1 id (cost=( 
Index Cond: (id < 1000000 ) 
-> Bitmap Index Scan on Idx_test_big1 id (cost=C6 
Index Cond: (id > 49000000 ) 
Planning time: 0.152 ms 
Execution time: 466.323 ms 
(11 rows) 











从 以 上 执行 计划 看 出 进行 了 Bitmap Heap 扫 
描 ， 执 行 时 间 上 升 到 466 坚 秒 ， 不 开局 并 行 比 开局 
并 行 性 能 低 了 不 少 。 


6.3 “并行 聚合 


上 一 小 节 介 绍 了 PostgreSQL 并 行 扫描 ， 这 一 小 
节 介 绍 并 行 聚合 ， 并 通过 示例 演示 。 聚 合 操作 是 指 
使 用 count () 、sum () 等 聚合 函数 的 SQL， 以 下 
执行 count 〈) 函数 统计 表 记 录 总 数 ， 执 行 计 划 如 下 
所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test_ bigi1; 
QUERY PLAN 
Finalize Aggregate (cost=525335.91..525335.92 rows=1 width=8) 
(actual time=2468.593.. 2468.594 rows=1 loops=1) 
-> Gather (cost=525335.89..525335.90 rows=4 width=8) 
(actual time=2468. 386,.2468.585 rows=5 loops=1) 
Workers Planned: 4 
Workers Launched: 4 
-> Partial Aggregate (cost=524335.89..524335.90 rows 
(actual time=2463.532. .2463.532 rows=1 loops=5) 
-> Parallel Seq Scan on test big1i (cost=0.00..49 
rows= 12500791 width=0) (actual time=0.019.. 
loops=5) 
Planning time: 0.089 ms 
Execution time: 2474.970 ms 
(8 rows) 





从 以 上 执行 计划 看 出 ， 首 先进 行 Partial 
Aggregate， 开 局 了 四 个 并 行进 程 ， 最 后 进行 
Finalize Aggregate， 此 SQL 执行 时 间 为 2474 坚 秒 ， 
在 操作 系统 层面 通过 top 命 令 能 看 到 EXPLAIN 
ANALYZE 命 令 的 四 个 子 进程 ， 如 图 6-1。 








这 个 例子 充分 验证 了 聚合 查询 count () 能 够 文 
持 并 行 ， 为 了 初步 测试 并 行 性 能 ， 在 会 话 级 别 关 闭 
并 行 查询 ， 如 下 所 示 : 





mydb=> SET max_parallel workers_ per_gather = 0 :; 
SET 


6 running, 207 sleeping 
Cpu(s): 88. 3%us, 7.4%sy, . 0%ni， 
Mem: 8062340k total, 6643848k u 


Ok free, 5949344k cached 


SHR S %CPU %MEM 
:1 rker: parallel worker for PID 24988 
.8 :02. 45 er: parallel worker for PID 24988 
246m 1.0g 987m R 77.8 12.7 :06. ostgres: ser mydb [local] EXPLAIN 
233m 195m 194m R 69.8 2.5 :02: ostgres: vorker: parallel worker for PID 24988 
233m 14lm 140m R 67.1 1.8 :02. 02 postgres: worker: parallel worker for PID 24988 





再 次 执行 以 上 和 奏 询 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test_ big1; 
QUERY PLAN 
Aggregate (cost=993115.55..993115.56 rows=1 width=8) 
(actual time=8655.614.. 8655.615 rows=1 loops=1) 
-> Sed Scan on test big1i (cost=0.00..868107.64 rows=5000 
Planning time: 0.106 ms 
Execution time: 8655.666 ms 
(4 rows) 





从 执行 计划 看 出 ， 关 财 并 行 租 询 后 进行 了 顺序 
扫描 ， 执 行 时 间 由 原来 的 2474 室 秒 上 升 为 8865 昌 
秒 ， 性 能 降低 近 3 售 ， 壬 试 将 并 行进 程 数 更 改 为 2 再 


次 进行 性 能 对 比 。 首 先 在 会 话 级 别 修改 以 下 参数 ， 
如 下 上 所 示 : 





mydb=> SET max_parallel workers_per_gather =2; 
SET 





再 次 执行 以 下 SQL， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT count(*) FROM test_ bigi1; 
QUERY PLAN 
Finalize Aggregate (cost=629509.16..629509.17 rows=1 width=8) 
(actual time=3305. 585..3305.585 rows=1 loops=1) 
-> Gather (cost=629509.15..629509.16 rows=2 width=8) 
(actual time=3305. 512..3305.578 rows=3 loops=1) 
workers Planned: 2 
Workers Launched: 2 
-> Partial Aggregate (cost=628509.15..628509.16 rows 
-> Parallel Seq Scan on test big1i (cost=0.00..57 
Planning time: 0.112 ms 
Execution time: 3314.371 ms 
(8 rows) 





从 执行 计划 看 出 ， 开 启 了 两 个 并 行进 程 ， 执 行 时 间 
为 3314 坚 秒 ， 之 后 我 们 测试 并 行进 程 数 为 6、8 时 此 
SQL 的 执行 时 间 ， 执 行 时 间 汇 总 如 表 6-1 所 示 。 


表 6-1 不 同 并 行进 程 数 下 的 全 表 扫 描 执 行 时 间 


8865 毫秒 
3314 毫秒 
2474 毫秒 


并 行进 程 数 Count() 执行 时 间 
0 
2 
4 
6 2479 毫秒 
8 


2446 毫秒 


从 表 6-1 可 以 看 出 ， 并 行进 程 数 为 8 时 执行 时 间 
最 短 ， 但 与 并 行进 程 数据 为 4、6 时 执行 时 间 非 常 接 
近 ， 当 并 行进 程 数 设置 比 4 高 时 ， 执 行 时 间 几 乎 没 
有 变化 ， 这 是 受 数 据 库 主机 CPU 核 数 限制 的 ， 本 机 
测试 环境 为 4 核 CPU。 


sum〈) 函数 也 能 文 持 并 行 扫 摘 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT sum(hashtext(name)) FROM test_bi 
QUERY PLAN 
Finalize Aggregate (cost=555163.25..555163.26 rows=1 width=8) 
(actual time=3307. 939..3307.939 rows=1 loops=1) 
-> Gather (cost=555162.83..555163.24 rows=4 width=8) 
(actual time=3307. 694..3307.934 rows=5 loops=1) 
Workers Planned: 4 
Workers Launched: 4 
-> Partial Aggregate (cost=554162.83..554162.84 rows 
> Parallel Seq Scan on test bigi (cost=0.00..491 
width=13) (actual time=0.045..1837.554 rows=10C 
Planning time: 0.078 ms 
Execution time: 3308.999 ms 
(8 rows) 





min () 、max () 有 聚合 函数 也 支持 并 行 查 
询 ， 这 里 不 再 测试 。 


6.4 多 表 关 联 


多 表 关 联 也 能 用 到 并 行 扫 摘 ， 例 如 nested 
loop、merge join、hash join， 多 表 关 联 场景 能 够 使 
用 并 行 并 不 是 指 多 表 关 联 本 吴 使 用 并 行 ， 而 是 指 多 
表 关 联 涉及 的 表 数 据 检索 时 能 够 使 用 并 行 处 理 ， 这 
一 小 节 将 分 别 介 绍 三 种 多 表 关 联 方式 使 用 并 行 的 场 


有 与. 
导 o 








6.4.1 Nested loop 多 表 关 联 


多 表 关 联 Nested loop 实 际 上 是 一 个 藤 套 循环 ， 
伪 代 码 如 下 所 示 : 


for (i = 0; i < length(outer); i++) 
for (j = 0; j < length(inner); j++) 
if (outer[i] == inner[j]) 
output(outer[i], inner[j]); 


接着 测试 Nested loop 多 表 关 联 场 景 下 使 用 到 并 
行 扫 拉 的 情况 ， 创 建 一 张 test_small 小 表 ， 如 下 所 
个 \: 


CREATE TABLE test_ small(id int4, name character varying(32)); 


INSERT INTO test_ small(id,name) 


SELECT n，n|l| '_small' FROM generate series(1,8000000) n 





创建 索引 并 做 表 分 析 ， 如 下 所 示 : 





mydb=> CREATE INDEX idx_test_ small_ id ON test_small USING btre 
CREATE INDEX 


mydb=> ANALYZE test_small; 
ANALYZE 





ANALYZE 命 令 用 于 收集 表 上 的 统计 信息 ， 使 
优化 器 能 够 获得 更 准确 的 执行 计划 ， 两 表 关 联 执行 





mydb=> EXPLAIN ANALYZE SELECT test_smal1L.name 
FROM test_ bigi, test_small 
WHERE test_big1.id = test_ small.id 
AND test_ small.id < 10000; 
QUERY PLAN 
Gather (cost=1138.18..31628.76 rows=10217 width=13) (actual t 
workers Planned: 3 
workers Launched: 3 
-> Nested Loop (cost=138.18..29607.06 rows=3296 width=13 
(actual time= 0.244..10.895 rows=2500 loops=4) 
-> Parallel Bitmap Heap Scan on test small (cost=137 
rows= 3296 width=17) (actual time=0.203..0.653 上 
Recheck Cond: (id < 10000) 
Heap Blocks: exact=10 
-> Bitmap Index Scan on idx_ test small id (< 
Index Cond: (id < 10000) 
-> Index Only Scan using idx_test_ bigi1 id on test_big 
Index Cond: (id = test_small.id) 
Heap Fetches: 1674 
Planning time: 0.427 ms 
Execution time: 17.548 ms 





(14 rows ) 





从 以 上 执行 计划 可 以 看 出 ， 首 移 在 表 test_bigl 
上 进行 了 Index Only 扫 描 ， 用 于 检索 id 小 于 10000 的 
记录 ， 之 后 两 表 进 行 Nested loop 关 联 同 时 在 表 
test_smalll 上 进行 了 并 行 Bitmap Heap 扫 描 ， 用 于 检 
索 id 小 于 10000 的 记录 ， 开 局 并 行情 况 下 这 条 SQL 执 
行 时 间 为 17.5 坚 秒 。 如 果 关 闭 并 行 ， 如 下 上 所 示 : 








mydb=> SET max_parallel workers per_gather =0 
SET 


再 次 得 看 执行 计划 ， 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT test_small.name 
FROM test_ bigi, test_small 
WHERE test_ big1.id = test_ small.id 
AND test_ small.id < 10000; 
QUERY PLAN 
Nested Loop (cost=1.00, .46213.80 rows=10217 width=13) (actual 
-> Index Scan using idx_test_small id on test_ small (cos 
Index Cond: (id < 10000) 
-> Index Only Scan using idx_test big1 id on test_big1 ( 
Index Cond: (id = test_small.id) 
Heap Fetches: 9999 
Planning time: 0.262 ms 
Execution time: 29.606 ms 
(8 rows) 





从 以 上 执行 计划 看 出 不 开局 并 行 此 SQL 执 行 时 





间 为 29.6 坚 秒 左 右 ， 性 能 差别 还 是 插 大 的 。 


6.4.2 ”Merge join 多 表 关 联 





Merge join 多 表 关 联 首先 将 两 个 表 进 行 排序 ， 
之 后 进行 关联 字段 匹配 ，Merge join 示例 如 下 所 
修 : 





mydb=> EXPLAIN ANALYZE SELECT test_smal1L.name 
FROM test_ bigi, test_ small 
WHERE test_big1.id = test_ small.id 
AND test_ small.id < 200000; 
QUERY PLAN 
Gather (cost=1001.79..195146.04 rows=204565 width=13) 
(actual time=0.308.. 160.192 rows=199999 loops=1) 
workers Planned: 4 
Workers Launched: 4 
-> Merge Join (cost=1.79..173689.54 rows=51141 width=13) 
(actual time=4.059.. 127.164 rows=40000 loops=5) 
Merge Cond: (test_ big1.id = test_ small.id) 
-> Parallel Index Only Scan using idx_test big1 i 
(actual time=0.044..16.223 rows=40001 loops= 
Heap Fetches: 50875 
-> Index Scan Using idx_test_small_id on test_sma 
rows=204565 width=17) (actual time=0.034..64. 
Index Cond: (id < 200000) 
Planning time: 0.255 ms 
Execution time: 171.755 ms 
(11 rows) 











开局 了 四 个 并 行 ， 执 行 时 间 为 171 坚 秒 左 右 。 
下 面 关 财 并 行进 行 比较 ， 如 下 上 所 未: 





mydb=> SET max_parallel workers_ per_gather =0; 
SET 





再 次 得 看 执行 计划 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT test_smal1L.name 
FROM test_ bigi, test_ small 
WHERE test_ big1.id = test_ small.id 
AND test_ small.id < 200000; 
QUERY PLAN 
Merge Join (cost=1.79..249728.34 rows=204565 width=13) (actu 
Merge Cond: (test_ big1.id = test_small.id) 
-> Index Only Scan using idx_ test bigi1 id on test big1i ( 
rows=200000 loops=1) 
Heap Fetches: 200000 
-> Index Scan using idx_test_small id on test_ small (cos 
Index Cond: (id < 200000) 
Planning time: 0.264 ms 
Execution time: 209.387 ms 
(8 rows) 








从 以 上 执行 计划 看 出 不 开局 并 行 此 SQL 执 行 时 
间 为 209 坚 秒 天 右 ， 执 行 时 间 比 开局 并 行 略 长 。 





6.4.3 ”Hash join 多 表 关 联 


PostgreSQL 多 表 关 联 也 支持 Hash join， 当 关联 
字段 没有 索引 情况 下 两 表 关 联通 单 会 进行 Hash 
join， 接 下 来 查看 Hash join 的 执行 计划 ， 先 将 两 张 
表 上 的 索引 删除 ， 同 时 关闭 并 行 ， 如 下 所 示 : 





mydb=> DROP INDEX idx_test_big1_ id; 
DROP INDEX 

mydb=> DROP INDEX idx_test_small id ; 
DROP INDEX 





mydb=> SET max_parallel workers per_gather =0; 
SET 





两 表 关 联 执 行 计划 如 下 所 示 : 





mydb=> EXPLAIN SELECT test_small.name 
FROM test_big1 JOIN test_ small ON (test_big1.id = test 
AND test_ small.id < 100; 
QUERY PLAN 
Hash Join (cost=150871.78..1205043.77 rows=800 width=13) 
Hash Cond: (test_ big1.id = test_small.id) 
-> Sed Scan on test bigi (cost=0.00..866664.00 rows=500C 
-> Hash (cost=150861.78..150861.78 rows=800 width=17) 
-> Sed Scan on test_ small (cost=0.00..150861.78 
Filter: (id < 100) 
(6 rows) 





下 面 实 际 执 行 此 SQL， 查 看 性 能 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT test_ small.name 
FROM test_ bigi JOIN test_ small ON (test_big1.id = test 
AND test_ small.id < 100; 
QUERY PLAN 
Hash Join (cost=151317.06..1206944.59 rows=802 width=13) 
(actual time=735. 778..11259.744 rows=99 loops=1) 
Hash Cond: (test_ big1.id = test_small.id) 
-> Sed Scan on test bigi (cost=0.00..868107.64 rows=500C 
-> Hash (cost=151307.04..151307.04 rows=802 width=17) 
(actual time=735. 750..735.750 rows=99 loops=1) 
Buckets: 1024 Batches: 1 Memory Usage: 13kB 


-> Sed Scan on test_ small (cost=0.00..151307.04 
(actual time=0.010..735.731 rows=99 loops=1) 
Filter: (id < 100) 
Rows Removed by Filter: 7999901 
Planning time: 0.134 ms 
Execution time: 11259.789 ms 
(10 rows) 





从 以 上 看 出 ， 执 行 时 间 为 11259 坚 秒 。 如 果 开 
局 4 个 并 行 ， 如 下 所 示 : 





mydb=> SET max_parallel workers_ per_gather =4; 
SET 





再 次 执行 SQL， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT test_ small.name 
FROM test big1 JOIN test small ON (test big1.id = test 
AND test_ small.id < 100; 
QUERY PLAN 
Gather (cost=152317.06..692280.94 rows=802 width=13) 
(actual time=1152. 263..4304.757 rows=99 loops=1) 
workers Planned: 4 
Workers Launched: 4 
-> Hash Join (cost=151317.06..691280.94 rows=200 width=1 
Hash Cond: (test_ big1.id = test_small.id) 
-> Parallel Seq Scan on test big1i (cost=0.00..4e 
-> Hash (cost=151307.04..151307.04 rows=802 widt 
(actual time=1106.665. .1106.665 rows=99 loor 
Buckets: 1024 Batches: 1 Memory Usage: 13kB 
-> Sed Scan on test_ small (cost=0.00..151307 
(actual time=863.670..1106.624 rows=99 lc 
Filter: (id < 100) 
Rows Removed by Filter: 7999901 
Planning time: 0.156 ms 
Execution time: 4315.928 ms 


(13 rows ) 


从 以 上 执行 计划 看 出 ， 开 局 了 4 个 并 行 ， 执 行 
时 间 下 降 为 4315 坚 秘 。 


6.5” 本章 小 结 


本 章 主 要 介绍 了 PostgreSQL 并 行 查 询 相 关内 
容 ， 包 括 并 行 查 询 相 关 配 置 参 数 、 并 行 顺序 扫 摘 、 
并 行 索引 扫描 、 并 行 nmdex-only 扫 描 、 并 行 bitmap 
heap 扫 描 ， 同 时 介绍 了 多 表 关 联 场 景 中 并 行 的 使 
用 。 从 本 市 测试 示例 可 以 看 出 ， 大 部 分 能 够 启用 并 
行 的 场景 对 SQL 性 能 都 有 较 大 幅度 提升 ， 其 至 是 提 
升 3 到 4 倍 ， 通 过 阅读 本 章 读 者 能 了 解 PostgreSQL 并 
行 查 询 文 持 的 场景 ， 同 时 对 并 行 查 询 相 关 配 置 参数 
有 一 定理 解 。 





第 7 革 ”事务 与 并 友 控 制 


事务 是 关系 型 数据 库 最 重要 的 概念 ， 而 并 发 通 
种 能 训 来 更 大 的 吞吐 量 、 资 源 利 用 率 和 更 好 的 性 
能 。 但 是 当 多 个 事务 并 发 执行 时 ， 即 使 每 个 单独 的 
事务 都 正确 执行 ， 数 据 库 的 一 致 性 也 可 能 被 破坏 。 
为 了 控制 并 发 事务 之 间 的 相互 影响 ， 解 决 并 发 可 能 
带 来 的 资源 争 用 及 数据 不 一 致 性 问题 ， 数 据 库 的 并 
用 控制 系统 引入 了 基于 锁 的 并 发 控制 机 制 〈Lock- 
Based Concurrency Control) 和 基于 多 版 本 的 并 发 控 
制 机 制 MVCC (Multi-Version Concurrency 
Control )。 本 章 将 简单 介绍 PostgreSQL 事 务 的 概 
念 ， 并 重点 讨论 PostgreSQL MVCC 的 基本 知识 、 工 
作 细 节 和 原理 ， 数 据 库 管理 员 和 应 用 开发 者 都 应 该 


音 














7.1 事务 和 并 及 控制 的 概念 
7.1.1 事务 的 基本 概念 和 性 质 


事务 是 数据 库 系 统 执行 过 程 中 最 小 的 逻辑 单 
位 。 当 事务 被 提交 时 ， 数 据 库 管 理 系统 要 确保 一 个 
事务 中 的 所 有 操作 都 成 功 完 成 ， 并 且 在 数据 库 中 永 
久保 存 操 作 结 果 。 如 果 一 个 事务 中 的 一 部 分 操作 没 
有 成 功 完成 ， 则 数据 库 管理 系统 会 把 数据 库 回 深 到 
操作 执行 之 前 的 状态 。 在 PostgreSQL 中 ， 显 式 地 指 
定 BEGIN...END/COMMIT/ROLLBACK 包 括 的 语句 
块 或 一 组 语句 为 一 个 事务 ， 未 指定 
BEGIN...END/COMMIT/ROLLBACK 的 单条 语句 也 
称 为 一 个 事务 。 事 务 有 四 个 重要 的 特性 : 原子 性 、 
一 致 性 、 隔 离 性 、 持 久 性 。 


` 原子 性 (Atomicity) : 一 个 事务 的 所 有 操 
作 ， 要 么 全 部 执行 ， 要么 全 部 不 执行 。 


:一致 性 (Consistency) : 执行 事务 时 保持 数 
可 库 从 一 沾 一 至 人 简 状态 朗 更 到 为 一 个 一 至 的 状态 8 














` 隔离 性 (Isolation) : 即使 每 个 事务 都 能 确 
保 一 致 性 和 原子 性 ， 如 果 并 发 执行 时 ， 由 于 它们 的 
操作 以 人 们 不 希望 的 方式 交叉 运行 ， 就 会 导致 不 一 


致 的 情况 发 生 。 确 保 事 务 与 事务 并 发 执行 时 ， 每 个 
事务 都 感觉 不 到 有 其 他 事务 在 并 发 地 执行 。 


持久 性 (Durability) : 一 个 事务 完成 之 后 ， 
即使 数据 库 发 生 故 障 ， 它 对 数据 库 的 改变 应 该 永久 
保存 在 数据 库 中 ; 


这 四 个 特性 分 别 取 它们 名 称 的 首 字 母 ， 通 常 习 
惯 称 之 为 ACID。 其 中 ， 事 务 一 致 性 由 主键 、 外 键 
这 类 约束 保证 ， 持 久 性 由 预 写 日 志 (WAL ) 和 数据 
库 管 理 系 统 的 恢复 子 系统 保证 ， 原 子 性 、 隔 离 性 则 
由 事务 管理 器 和 MVCC 来 控制 。 


7.1.2 并 发 引发 的 现象 


如 果 所 有 的 事务 都 按照 顺序 执行 ， 所 有 事务 的 
执行 时 间 没 有 重 登 交错 束 不 会 存在 事务 并 发 性 。 如 
果 以 不 受 控制 的 方式 允许 共有 交织 操作 的 并 友 事 
务 ， 则 可 能 发 生 不 期 望 的 结果 。 这 些 不 期 户 的 结果 
可 能 被 并 发 地 写 入 和 并 发 地 读 取 而 得 到 非 预 期 的 数 
据 。PostgreSQL 中 可 以 把 这 些 非 预 期 的 现象 总 结 
为 : 脏 读 (Dirty read) 、 不 可 重复 谈 (Non- 
repeatable read) 、 约 谈 (Phantom Read) 和 序列 化 
异常 (Serialization Anomaly) 。 下 面 我 们 会 分 别 举 
例 演 示 这 几 种 非 预 期 的 读 现 象 。 











< 注意 由 于 PostereSQL 内 部 将 READ 
UNCOMMITTED 设 计 为 和 READ COMMITTED 一 
样 ， 在 PostgreSQL 数 据 库 中 无 论 如 何 都 无 法 产生 脏 
读 ， 所 以 读者 可 以 使 用 能 够 出 现 脏 读 现象 的 数据 库 
观察 脏 读 现 架 。 由 于 PostereSQL 在 READ 
COMMITTED 隔 离 级 别 可 能 出 现 不 可 重复 读 、 幻 读 
的 现象 ， 所 以 例子 中 都 使 用 PostereSQL 上 默认 的 事务 
隔离 级 别 READ COMMITTED 来 演示 。 关 于 隔离 级 
别 的 概念 后 文 会 有 解释 。 


1. 脏 读 


当 第 一 个 事务 读 取 了 第 二 个 事务 中 已 经 修改 但 
还 未 提交 的 数据 ， 包 括 INSERT、UPDATE、 
DELETE， 当 第 二 个 事务 不 提交 并 执行 ROLLBACK 
后 ， 第 一 个 事务 所 读 取 到 的 数据 是 不 正确 的 ， 这 种 
读 现 象 称 作 脏 读 。 下 面 演 示 一 个 脏 读 的 例子 。 


”月 先 创建 一 张 测 试 表 并 插入 测试 数据 ， 如 下 所 
小 : 





CREATE TABLE tbl _ mvcc ( 
id INT NOT NULL AUTO_INCREMENT ， 
ival INT， 
PRIMARY KEY (id) 

) ; 

-- 插入 一 条 测试 数据 

INSERT INTO tbl] mvcc (ival) VALUES (1); 





按照 从 上 到 下 的 顺序 分 别 执行 T1 和 T2 如 下 所 








末 U& 
set session transaction isolation level read 
uncommitted;start transaction; 
select * from tbl mvec where id = 1 / 
id=1,ijval=l1 */ 
( 续 ) 
WM 四 
start transaction; 
update tbl mvcc set ival = 10 where id = 1; 


select * from tbl mvcc where id = 1; /# 


Evol. Uae 


上 面 的 例子 中 ， 事 务 T1l 在 tbl_ mvcc 表 中 查询 数 
据 ， 得 到 id=1，ival=1 的 行 ， 这 时 事务 T2 更 新 表 中 
id=1 的 行 的 ival 值 为 10， 此 时 事务 T1 查 询 tbl_mvcc 
表 ， 而 事务 T2 此 时 并 未 提交 ，ival 预 期 的 值 理应 等 
于 1， 但 是 事务 T1 却 得 到 了 ival 等 于 10 的 值 。 事 务 T2 
最 终 进 行 了 ROLLBACK 操 作 ， 很 显然 ， 事 务 T1 将 
得 到 错误 的 值 ， 引 发 了 脏 读 现象 。 


2. 不 可 重复 读 
当 一 个 事务 第 一 次 读 取 数据 之 后 ， 被 读 取 的 数 


据 补 另 一 个 已 捉 交 的 事务 进行 了 修改 ， 事 务 再 次 读 
取 这 些 数 据 时 发 现 数据 已 经 被 另 一 个 事务 修改 ， 两 








次 查询 的 结果 不 一 致 ， 这 种 读 现象 称 为 不 可 重复 
谈 。 下 面 演示 一 个 不 可 重复 读 的 例子 。 


自 完 创建 一 张 测试 表 并 插入 测试 数据 ， 如 下 所 


一 < 


外: 





CREATE TABLE tbl _mvcc ( 
id SERIAL PRIMARY KEY, 
ival INT 

); 





插入 一 条 测试 数据 
INSERT INTO tbl_ mvcc (ival) VALUES (1); 





”按照 从 上 到 下 的 顺序 分 别 执行 T1 和 T2， 如 下 所 
修 \: 


T1 2 


BEGIN TRANSACTION ISOLATION LEVEL READ 
COMMITTED; 





SELECT id,ival FROM tbl] mvcc WHERE id = 1; 





1 | val 
人 
业 于 
Ll, EGA) 
BEGIN; 
UPDATE tbl mVcC SET ival = 10 WHERE id = 1; 
COMMIT; 
SELECT id,ival FROM tbl mvcc WHERE id = 1; 
站 WaT 
ace 
由 机 二 区 
eh omy 
END; 





在 上 面 的 例子 中 ， 事 务 T1 在 tbl_mvcc 表 中 人 第 一 


次 查询 数据 ， 得 到 id=1，ival=1 的 行 ， 这 时 事务 T2 
更 新 表 中 id=1 的 行 的 ival 值 为 10， 并 且 事 务 T2 成 功 
地 进行 了 COMMIT 操 作 。 此 时 事务 T1 查 询 tbl]_mvcc 
表 ， 得 到 ival 的 值 等 于 10， 我 们 的 预期 是 数据 库 在 
第 二 次 SELECT 请 求 的 时 候 ， 应 该 返回 事务 T2 更 新 
之 前 的 值 ， 但 实际 查询 到 的 结果 与 第 一 次 查询 得 到 
的 结果 不 同 ， 由 于 事务 T2 的 并 发 操作 ， 导 致 事务 T1 
ee 


3. 幻 读 


指 一 个 事务 的 两 次 查询 的 结果 集 记 录 数 不 一 
致 。 例 如 一 个 事务 第 一 次 根据 范围 条 件 答 询 了 一 些 
数据 ， 而 另 一 个 事务 却 在 此 时 插入 或 删除 了 这 个 事 
务 的 得 询 结果 集中 的 部 分 数据 ， 这 个 事务 在 接 下 来 
的 查询 中 ， 会 发 现 有 一 些 数据 在 它 先前 的 查询 结果 
中 不 存在 ， 或 者 第 一 次 查询 结果 中 的 一 些 数据 不 存 
在 了 ， 两 次 租 询 结果 不 相同 ， 这 种 恋 现 象 称 为 约 
读 。 幻 读 可 以 认为 是 受 INSERT 和 DELETE 影 响 的 不 
可 重复 读 的 一 种 特殊 场景 。 


下 面 省 示 一 个 约 读 的 例子 ， 使 用 前 面 创建 的 测 
试 表 tbl_mvcc 和 表 中 的 测试 数据 ， 如 下 所 示 : 
































4 T2 





BEGIN TRANSACTION ISOLATION LEVEL READ 
COMMITTED; 

SELECT id,ival FROM tbl mvcc WHERE id > 
3 AND Td :< EQ 





BEGIN; 
INSERT INTO tbl mvcc (id , ival) VALUES (6 , 6); 
END; 











SELECT id,ival FROM tbl mvcc WHERE id > 
3 AND id < 10; 











9 ival 
4 4 
5 
6 
(3 ) 
END; 


在 上 和 面 的 例子 中 ， 事 务 T1 在 tbl mvcc 表 中 第 一 
次 查询 id 大 于 3 并 且 小 于 10 的 数据 ， 得 到 两 行 数 据 ， 
这 时 事务 T2 在 表 中 插入 了 一 条 id 等 于 6 的 数据 ， 这 
条 数据 正好 满足 事务 T1 的 WHERE 条 件 中 ，id 大 于 3 
并 且 小 于 10 的 查询 条 件 ， 事 务 T1 再 次 查询 上 时， 查询 
结果 会 多 一 条 非 预 期 的 数据 ， 像 产生 了 约 沉 。 不 可 
重复 读 和 约 读 很 相似 ， 它 们 之 间 的 区 别 主 要 在 于 不 
可 重复 读 主要 受到 其 他 事务 对 数据 的 UPDATE 操 
作 ， 而 约 读 主要 受到 其 他 事务 INSERT 和 DELETE 操 
作 的 影响 。 





7.1.3 ANSI SQL 标准 的 事务 隔离 级 别 


为 了 避免 事务 与 事务 之 间 并 发 执行 引发 的 副 作 
用 ， 最 简单 的 方法 是 串 行 化 地 逐个 执行 事务 ， 但 是 
串 行 化 地 逐个 执行 事务 会 严重 降低 系统 吞吐 量 ， 降 
低 硬 件 和 系统 的 资源 利用 率 。 为 此 ，ANSI SQL 标 
准 定 义 了 四 类 隔离 级 别 ， 每 一 个 隔离 级 别 都 包括 了 
一 些 具体 规则 ， 用 来 限定 事务 内 外 的 哪些 改变 对 其 
他 事务 是 可 见 的 ， 哪 些 是 不 可 见 的 ， 也 就 是 允许 或 
不 允许 出 现 脏 读 、 不 可 重复 读 ， 幻 读 的 现象 。 通 过 
这 些 事务 隔离 级 别 规定 了 一 个 事务 必须 与 其 他 事务 
所 进行 的 资源 或 数据 更 改 相 隔离 的 程度 。 这 四 类 事 
务 隔离 级 别 包括 : 








. Read Uncommitted 〈 读 未 提交 ) : 在 该 隔离 
级 别 ， 所 有 事务 都 可 以 看 到 其 他 未 提交 事务 的 执行 
结果 ， 在 多 用 户 数 据 库 中 ， 脏 读 是 非常 危险 的 ， 在 
并 发 情况 下 ， 查 询 结果 非常 不 可 控 ， 即 使 不 考虑 结 
果 的 严谨 性 只 追求 性 能 ， 它 的 性 能 也 并 不 比 其 他 事 
务 隔离 级 别 好 多 少 ， 可 以 说 脏 读 没 有 任何 好 处 。 所 
以 未 提交 读 这 一 事务 隔离 级 别 很 少 用 于 实际 应 用 。 

. Read Committed ( 读 已 提交 ) : 这 是 
PostgreSQL 的 上 默认 隔离 级 别 ， 它 满足 了 一 个 事 务 只 
能 看 见 已 经 提交 事务 对 关联 数据 所 做 的 改变 的 隔离 


* Repeatable Read (可 重复 读 ) : 确保 同一 事 


务 的 多 个 实例 在 并 发 读 取 数据 时 ， 会 看 到 同样 的 数 


. Setializable (可 序列 化 ) : 这 是 最 高 的 隔离 
级 别 ， 它 通过 强制 事务 排序 ， 使 之 不 可 能 相互 冲 
突 ， 从 而 解决 幻 读 问 题 。 简 言 之 ， 它 是 在 每 个 读 的 
数据 行 上 加 上 共享 锁 。 在 这 个 级 别 ， 可 能 导致 大 量 
的 超时 现象 和 锁 竞争 。 


下 面 的 表格 是 ANSI SQL 标准 定义 的 事务 隔离 
级 别 与 读 现 象 的 关系 : 


隔离 级 别 脏 读 幻 。 读 
Read Uncommitted 可 能 
Read Committed 可 能 


不 可 能 


对 于 同一 个 事务 来 说 ， 不 同 的 事务 隔离 级 别 执 
行 结果 可 能 会 不 同 。 隔 离 级 别 越 高 ， 越 能 保证 数据 
的 完整 性 和 一 致 性 ， 但 是 需要 更 多 的 系统 资源 ， 增 
加 了 事务 阻 团 其 他 事务 的 概率 ， 对 并 发 性 能 的 影 啊 
也 越 大 ， 吞 吐 量 也 会 更 低 ;， 低级 别 的 隔离 级 别 一 般 
文 持 更 高 的 并 发 处 理 ， 并 拥有 更 低 的 系统 开销 ， 但 
增加 了 并 发 引发 的 副作用 的 影响 。 对 于 多 数 应 用 程 
序 ， 优 先 考 虑 Read Committed 隔 离 级 别 。 它 能 够 避 
免 脏 读 ， 而 且 具 有 较 好 的 并 发 性 能 。 尽 管 它 会 导致 
不 可 重复 谈 、 约 谈 和 丢失 更 新 这 些 并 发 问题 ， 在 可 

















能 出 现 这 类 问题 的 个 别 场合 ， 可 以 由 应 用 程序 采用 
坊 观 锁 或 乐观 锁 来 控制 。 


7.2” PostgreSQL 的 事务 隔离 级 别 





尽管 不 同 的 数据 库 系 统 中 事务 隅 离 的 实现 不 
同 ， 但 都 会 体 循 SQL 标 准 中 “不 同事 务 隔离 级 别 必 
须 避 人 免 哪 一 种 读 现 象 发 生 ” 的 约定 。SQL 标 准 中 
Read Uncommitted 的 事务 隔离 级 别 是 允许 脏 读 的 ， 
其 本 意 应 该 是 数据 库 管 理 系统 在 这 一 事务 隔离 级 别 
能 够 文 持 非 阻塞 的 谈 ， 即 利 说 的 写 不 阻 守 谈 ， 但 
PostgreSQL 上 默认 就 提供 了 非 阻 窟 读 ， 因 此 在 
PostgreSQL 内 部 只 实现 了 三 种 不 同 的 隔离 级 别 ， 
PostgreSQL 的 Read Uncommitted 模 式 的 行为 和 Read 
Committed 相 同 ， 并 且 PostgreSQL 的 Repeatable Read 
实现 不 允许 约 谈 。 而 SQL 标准 定义 的 四 种 隔离 级 别 
只 定义 了 哪 种 现象 不 能 发 生 ， 摘 述 了 每 种 隔离 级 别 
必须 提供 的 最 小 保护 ， 但 是 没有 定义 哪 种 现象 必须 
发 生 ， 这 是 SQL 标准 特别 允许 的 。 在 PostgreSQL 
中 ， 依 然 可 以 使 用 四 种 标准 事务 隔离 级 别 中 的 任意 
一 种 ， 但 是 要 理解 PostgreSQL 的 事务 隔离 级 别 有 别 
于 其 他 数据 库 隅 离 级 别 的 定义 。 除 此 以 外 ， 这 里 还 
引入 了 一 个 新 的 数据 冲突 问题 ， 序列 化 寞 第 。 序 列 
化 异常 是 指 成 功 提 交 的 一 组 事务 的 执行 结果 与 这 些 
事务 按照 串 行 执行 方式 的 执行 结果 不 一 致 。 下 面 演 
示 一 个 序列 化 异常 的 例子 ， 按 照 从 上 到 下 的 顺序 分 
别 执行 TL 和 T2， 如 下 所 示 : 




















全 EE 








BEGIN TRANSACTION ISOLATION LEVEL REPEATABLE READ ; 
SELECT id,ival FROM tbl mvcec WHERE id = 1; 
ja | Evad 


Ee 














UPDATE tbl mvcc SET ival = ival 
x 10 WHERE id = 1; 











UPDATE tbl mvcc SET ival = ival + 1 WHERE id = 1; 
ERROR: could not serialize access due to concurrent 
update 








ROLLBACK 


在 上 面 的 例子 中 ， 事 务 T1 开 始 时 查询 出 id=1 的 
数据 ， 事 务 T2 在 事务 T1 提 交 之 前 对 数据 做 了 更 新 操 
作 ， 并 且 在 事务 T1 提 交 之 前 提交 成 功 ， 当 事务 T1 提 
交 时 ， 如 果 按 照 先 执行 T2 再 执行 T1 的 顺序 执行 ， 事 
务 T1 在 事务 开始 时 查询 到 的 数据 应 该 是 事务 T2 提 交 
之 后 的 结果 : ival=10， 但 由 于 事务 T1 是 可 重复 读 
的 ， 当 它 进 行 UPDATE 时 ， 事 务 T1 读 到 的 数据 却 是 
它 开始 时 读 到 的 数据 : ival=1; 这 时 就 发 生 了 序列 
化 异常 的 现象 。Serializable 与 Repeatable Read 在 
PostgreSQL 里 是 基本 一 样 的 ， 除 了 Serializable 不 人 允 
许 序 列 化 异常 。 


下 面 的 表格 是 PostgreSQL 中 不 同 的 事务 隅 离 级 
别 与 读 现 象 的 天 系 : 

















隔离 级 别 
Read Uncommitted 
Read Committed 
Repeatable Read 


Serializable 





下 面 我 们 通过 一 个 例子 验证 在 Repeatable Read 
事务 隔离 级 别 不 可 能 出 现 约 谈 ， 如 下 所 示 : 





T1 T2 




















BEGIN TRANSACTION ISOLATION LEVEL REPEATABLE READ; 
SELECT id,ival FROM tbl mvcc WHERE id > 3 AND id < 10; 








jal | 证 疯 下 
-+ 
4 | 4 
5 小写 
(2 rows) 


BEGIN; 

INSERT INTO tb]l] mvcc fae 
TEN "VARDES M6 ; Gj 

END; 











SELECT id,ival FROM tbl mvcc WHERE id > 3 AND id < 10; 


主 副 SS 
cp 
归 此 强 
上 治 
(2 rows) 
END; 


在 上 面 的 例子 中 ， 事 务 T1 在 tbl_ mvcc 表 中 第 一 
次 查询 id 大 于 3 并 且 小 于 10 的 数据 ， 得 到 两 行 数 据 ， 
这 时 事务 T2 在 表 中 插入 了 一 条 id 等 于 6 的 数据 ， 这 
条 数据 正好 满足 事务 T1 的 WHERE 条 件 中 ，id 大 于 3 
并 有 晶 小 于 10 的 查询 条 件 ， 事 务 T1 再 次 查询 时 ， 与 第 
一 次 查询 的 结果 相同 ， 说 明 没有 出 现 约 读 现 象 。 其 
他 事务 隔离 级 别 对 读 现 象 的 影响 这 里 不 再 演示 ， 有 





兴趣 的 读者 可 以 自行 实验 。 
7.2.1 ”查看 和 设置 数据 库 的 事务 隔离 级 别 





PostgreSQL 默 认 的 事务 隔离 级 别 是 Read 
Committed。 得 看 全 局 事务 隔离 级 唱 的 代码 如 下 所 
人 小 : 


mydb=# SELECT name, setting FROM pg_settings WHERE name = 'defe 
name | setting 


default_transaction_isolation | repeatable read 
(1 row) 
BK . 


mydb=# SELECT current_setting('default_transaction isolation') 
current_setting 


repeatable read 
(1 row) 


7.2.2 ”修改 全 局 的 事务 隅 离 级 别 


方法 1: 通过 修改 postgresql.conf 文 件 中 的 
default transaction_isolation 人 参数 修改 全 局 事务 隔离 
级 别 ， 修 改 之 后 reload 实 例 使 之 生效 ; 


方法 2: 通过 ALTER SYSTEM 命 令 修 改 全 局 事 


务 隔离 级 列 ， 


mydb=# ALTER SYSTEM SET default_ transaction isolation TO "REPE 
ALTER SYSTEM 
mydb=# SELECT pg_reload_conf( ) ; 

pg_reload_conf 


(1 row) 

mydb=# SELECT current_setting('transaction_ isolation'); 
current_setting 
repeatable read 

(1 row) 





7.2.3 查看 当前 会 话 的 事务 隔离 级 别 


但 看 当前 会 话 的 事务 隔离 级 别 的 代码 如 下 所 





一 < 


和 修 : 





mydb=# SHOW transaction isolation ;，; 
transaction_ isolation 
read committed 

(1 row) 








mydb=# SELECT current_setting('transaction_isolation'); 
current_setting 


read committed 
(1 row) 


[ee | 


7.2.4 设置 当前 会 话 的 事务 隔离 级 别 
设置 当前 会 话 的 事务 隔离 级 别 的 代码 如 下 所 


一 < 


人 小 : 





mydb=# SET SESSION CHARACTERISTICS AS _ TRANSACTION ISOLATION LE 
SET 
mydb=# SHOW transaction isolation ;，; 
transaction isolation 
read uncommitted 
(1 row) 








7.2.5 ”设置 当前 事务 的 事务 隔离 级 别 
在 局 动 事务 的 同时 设置 事务 隔离 级 别 ， 如 下 所 


一 < 


不: 





mydb=# START TRANSACTION ISOLATION LEVEL READ UNCOMMITTED ; 
START TRANSACTION 


mydb=# END; 
COMMIT 





或 : 





mydb=# BEGIN ISOLATION LEVEL READ UNCOMMITTED READ WRITE ; 


mydb=# END/COMMIT/ROLLBACK; 


START TRANSACTION 和 BEGIN 都 是 开启 一 
个 事务 ， 具 有 相同 的 功能 。 


7.3 ”PostgreSQL 的 并 发 控制 


在 多 用 户 环境 中 ， 人 多 许多 人 同时 访问 和 修改 数 
据 ， 为 了 保持 事务 的 隔离 性 ， 系 统 必须 对 并 发 事务 
之 间 的 相互 作用 加 以 控制 ， 在 这 种 情况 下 既 要 确保 
用 户 以 一 致 的 方式 读 取 和 修改 数据 ， 还 要 争取 尽量 
多 的 并 及 数 ， 这 是 数据 库 管理 系统 的 并 发 控制 器 需 
要 做 的 事情 。 当 多 个 事务 同时 执行 时 ， 即 使 每 个 单 
独 的 事务 都 正确 执行 ， 数 据 的 一 致 性 也 可 能 被 人 破 
坏 。 为 了 控制 并 发 事务 之 间 的 相互 影响 ， 应 把 事务 
与 事务 在 多 辑 上 隅 离开 ， 以 保证 数据 库 的 一 致 性 。 
数据 库 管 理 系 统 中 并 发 控制 的 任务 便 是 确保 在 多 个 
事务 同时 存 取 数 据 库 中 同一 数据 时 不 破坏 事务 的 隔 
离 性 、 数 据 的 一 致 性 以 及 数据 库 的 一 致 性 ， 也 就 是 
解决 丢 拓 更新、 脏 谈 、 不 可 重复 谈 、 弥 读 、 序 列 化 
异 钊 的 问题 。 并 发 控制 模型 有 基于 锁 的 并 发 控制 
(Lock-Based Concurrency Control) 和 基于 多 版 本 
的 并 发 控制 〈Multi-Version Concurrency 
Control) 。 封 锁 、 时 间 惟 、 乐 观 并 有 友 控 制 《又 
名 “乐观 锁 ”，Optimistic Concurrency Control， 缩 写 
为 “OCC”) 和 悲观 并 发 控制 (又 名 “ 莫 观 锁 ”， 
Pessimistic Concurrency Control， 缩 写 为 "PCC”) 是 


并 发 控制 采用 的 主要 技术 手段 。 














7.3.1 基于 锁 的 并 发 控制 


为 了 解决 并 发 问题 ， 数 据 库 引入 了 “ 锁 ” 的 概 
念 。 基 本 的 封锁 类 型 有 两 种 : 排 它 锁 (Exclusive 
locks，X 镜 ) 和 共享 锁 〈Share locks，S 锁 ) 。 


排 它 锁 : 被 加 锁 的 对 象 只 能 航 持 有 锁 的 事务 读 
取 和 修改 ， 其 他 事务 无 法 在 该 对 象 上 加 其 他 锁 ， 也 
不 能 读 取 和 修改 该 对 象 。 


共有 至 锁 :; 被 加 锁 的 对 象 可 以 被 持 锁 事务 读 取 ， 
但 是 不 能 被 修改 ， 其 他 事务 也 可 以 在 上 面 册 加 共 圣 
锁 。 


封锁 对 象 的 大 小 称 为 封锁 粒度 

CGranularity) 。 封 锁 的 对 象 可 以 是 馆 辑 单元 ， 也 
可 以 是 物理 单元 。 以 关系 数据 库 为 例子 ， 封 锁 对 象 
可 以 是 这 样 一 些 馆 辑 单 元 : 属性 值 、 属 性 值 的 集 

合 、 元 组 、 关 系 、 索 引 项 、 整 个 索引 项 甚至 整个 数 
据 库 ; 也 可 以 是 这 样 的 一 些 物理 单元 : 页 (数据 页 
或 案 引 页 )、 物 理 记 录 等 。 封 锁 的 俩 略 是 一 组 规 

则 ， 这 些 规则 阐明 了 事务 何 时 对 数据 项 进行 加 锁 和 
解锁 ， 通 第 称 为 封锁 协议 〈Locking Protocol) 。 由 
于 采用 了 封锁 人 策略， 一 次 只 能 执行 一 个 事务 ， 所 以 
只 会 产生 串 行 调度 ， 进 使 事务 只 能 等 竺 前面 的 事务 
结束 之 后 才 可 以 开始 ， 所 以 基于 锁 的 并 发 控制 机 制 











导致 性 能 低下 ， 并 发 程度 低 。 


关于 锁 以 及 PostgreSQL 特 有 的 Advisory 
Lock《〈 咨 询 锁 ) 的 相关 书籍 和 文档 都 比较 让 是， 本 
书 不 做 效 述 。 





7.3.2 ”基于 多 版 本 的 并 发 控制 


基于 锁 的 并 发 控制 机 制 要 么 延迟 一 项 操作 ， 要 
么 中 止 发 出 该 操作 的 事务 来 保证 可 串 行 性 。 如 果 每 
一 数据 项 的 旧 值 副本 保存 在 系统 中 ， 这 些 问题 区 可 
以 避免 。 这 种 基于 多 个 旧 值 版 本 的 并 发 控制 即 
MVCC。 一 般 把 基于 锁 的 并 发 控制 机 制 称 成 为 悲观 
机 制 ， 而 把 MVCC 机 制 称 为 乐观 机 制 。 这 是 因为 锁 
机 制 是 一 种 预防 性 的 机 制 ， 读 会 阻 奢 写 ， 写 也 会 阻 
窟 读 ， 当 封锁 粒度 较 大 ， 时 间 较 长 时 并 发 性 能 束 不 
会 太 好 ; 而 MVCC 是 一 种 后 验 性 的 机 制 ， 读 不 阻 私 
写 ， 写 也 不 阻 窜 读 ， 等 到 提交 的 时 候 才 检验 是 否 有 
冲突 ， 由 于 没有 锁 ， 所 以 读 写 不 会 相互 阻 故 ， 避 人 免 
了 大 粒度 和 长 时 间 的 锁定 ， 能 更 好 地 适应 对 读 的 啊 
应 速度 和 并 发 性 要 求 高 的 场景 ， 大 大 提升 了 并 发 性 
能 ， 币 见 的 数据 库 如 Oracle、PostgreSQL、 
MySQL 〈Innodb) 都 使 用 MVCC 并 发 控制 机 制 。 在 
MVCC 中 ， 每 一 个 写 操 作 创 建 一 个 新 的 版 本 。 当 事 
务 及 出 一 个 读 操 作 时 ， 并 发 控制 管理 左 选 择 一 个 版 
本 进行 读 取 。 也 束 古 为 数据 增加 一 个 关于 版 本 的 标 














识 ， 在 读 取 数 据 时 ， 连 同 版 本 号 一 起 读 出 ， 在 更 新 
时 对 此 版 本 号 加 一 。 


MVCC 通 过 保存 数据 在 某 个 时 间 点 的 快照 ， 并 
控制 元 组 的 可 见 性 来 实现 。 快 照 记 录 READ 
COMMITTED 事 务 隔离 级 别 的 事务 中 的 每 条 SQL 语 
句 的 开头 和 SERIALIZABLE 事 务 隔 离 级 别 的 事务 开 
始 时 的 元 组 的 可 见 性 。 一 个 事务 无 论 运 行 多 长 时 
间 ， 在 同一 个 事务 里 都 能 够 看 到 一 致 的 数据 。 根 据 
事务 开始 的 时 间 不 同 ， 在 同一 个 时 刻 不 同 事务 看 到 
的 相同 表 里 的 数据 可 能 是 不 同 的 。 


PostgreSQL 为 每 一 个 事务 分 配 一 个 递增 的 、 类 
型 为 int32 的 整 型 数 作 为 唯一 的 事务 ID， 称 为 xid。 
创建 一 个 新 的 快照 时 ， 将 收集 当前 正在 执行 的 事务 
id 和 已 提交 的 最 大 事务 id。 根 据 快 照 提 供 的 信息 ， 
PostgreSQL 可 以 确定 事务 的 操作 是 否 对 执行 语句 是 
可 见 的 。PostgreSQL 还 在 系统 里 的 每 一 行 记录 上 都 
存储 了 事务 相关 的 信息 ， 这 被 用 来 判断 某 一 行 记 录 
对 于 当前 事务 是 否 可 见 。 在 PostgreSQL 的 内 部 数据 
结构 中 ， 每 个 元 组 〈 行 记录 ) 有 4 个 与 事务 可 见 性 
相关 的 隐 羧 列 ， 分 别 是 xmin、xmax、cmin、 
cmax， 其 中 cmin 和 cmax 分 别 是 插入 和 删除 该 元 组 
的 命令 在 事务 中 的 命令 序列 标识 ，xmin、xmax 与 事 
务 对 其 他 事务 的 可 见 性 相关 ， 用 于 同一 个 事务 中 的 
可 见 性 判断 。 可 以 通过 SQL 直 接 查 询 到 它们 的 值 ， 
































如 下 所 示 : 


mydb=# SELECT xmin,xmax,cmin,cmax,id,ival FROM tbl mvcc WHERE 
xmin | xmax | cmin | cmax | id | ival 

和 上 
1930 | © | © | © | 1| 1 

(1 row) 


其 中 xmin 保 存 了 创建 该 行 数 据 的 事务 的 xid， 
xmax 保 存 的 是 删除 该 行 的 xid，PostgreSQL 在 不 同 
事务 时 间 使 用 xmin 和 xmax 控 制 事务 对 其 他 事务 的 可 
见 性 。 


1. 通 过 xmin 决 定 事务 的 可 见 性 


当 插 入 一 行 数 据 时 ，PostgreSQL 会 将 插入 这 行 
数据 的 事务 的 Xid 存 储 在 xmin 中 。 通 过 xmin 值 判断 
事务 中 插入 的 行 记 录 对 其 他 事务 的 可 见 性 有 两 种 情 
7: 


1) 由 回 深 的 事务 或 未 提交 的 事务 创建 的 行 对 
于 任何 其 他 事务 都 是 不 可 见 的 。 例 如 我 们 开局 一 个 
新 的 事务 ， 如 下 所 示 : 





mydb=# BEGIN; 
mydb=# SELECT txid_current(); 
txid_current 


(1 row) 

mydb=# INSERT INTO tbl mvcec(id,ival) VALUES(7,7); 

INSERT © 1 

mydb=# SELECT xmin,xmax,cmin,cmax,id,ival FROM tbl_ mvcc WHERE 
xmin | xmax | cmin | cmax | id | ival 

se Pe 
1937 | 9 | © | 9| 7| 7 

(1 row) 





通过 SELECT txid_current () 语句 我 们 查询 到 
当前 的 事务 的 xid 是 1937， 插 入 一 条 id 等 于 7 的 数 
据 ， 碍 询 这 条 新 数据 的 隐藏 列 可 以 看 到 xmin 的 值 等 
于 1937， 也 束 是 插入 这 行 数据 的 事务 的 xid。 


并 尼 为 外 二 个 事务 2 如 .下 所 不 : 





mydb=# BEGIN; 

BEGIN 

mydb=# SELECT txid_current(); 
txid_current 


(1 row) 


mydb=# SELECT * FROM tbl mvcc WHERE id = 7; 
id | ival 

a 后 过 二 二名- 研 亿 

(9 rows ) 


mydb=# END; 
COMMIT 





可 以 看 到 由 于 第 一 个 事务 并 没有 提交 ， 所 以 第 
一 个 事务 对 第 二 个 事务 是 不 可 见 的 。 





2) 无 论 提交 成 功 或 回 滩 的 事务 ，Xid 都 会 弟 

。 对 于 Repeatable Read 和 Serializable 隅 离 级 别 的 
和 如 果 它 的 xid 小 于 为 外 一 个 事务 的 xid， 也 就 
征 元 组 的 xmin 小 于 另外 一 个 事务 的 xmin， 那 么 另外 
一 个 事务 对 这 个 事务 是 不 可 见 的 。 下 面 举例 说 明 。 





mydb=# BEGIN TRANSACTION ISOLATION LEVEL REPEATABLE READ; 
BEGIN 
mydb=# SELECT txid_current(); 

txid_current 





以 上 语句 开启 了 一 个 事务 ， 这 个 事务 的 xid 是 
1939。 再 开始 另外 一 个 事务 如 下 所 示 : 





mydb=# BEGIN ， 

BEGIN 

mydb=# SELECT txid_current(); 
txid_current 


(1 row) 


mydb=# INSERT INTO tbl _mvcc (id,ival) VALUES (7,7); 

INSERT © 1 

mydb=# SELECT xmin,xmax,cmin,cmax,id,ival FROM tbl_ mvcc WHERE 
xmin | xmax | cmin | cmax | id | ival 


1940 | 9 | 0 | 9 | 7| 


mydb=# COMMIT ; 
COMMIT 


rr 一 | 





第 二 个 事务 的 xid 是 1940， 并 在 这 个 事务 中 在 
表 中 插入 一 条 新 的 数据 ，xmin 记 录 了 第 二 个 事务 的 
xid， 第 二 个 事务 提交 成 功 。 在 第 一 个 事务 中 查询 第 
二 个 事务 提交 的 数据 ， 如 下 所 示 : 





mydb=# SELECT xmin,xmax,cmin,cmax,id,ival FROM tbl mvcc WHERE 
xmin | xmax | cmin | cmax | id | iva 

ee Ee 

(9 rows ) 

mydb=# END; 

COMMIT 


从 上 面 的 例子 可 以 看 到 ， 尽 管 第 二 个 事务 提交 
成 功 ， 但 在 第 一 个 事务 中 并 未 能 碍 询 到 第 二 个 事务 
插入 的 数据 ， 因 为 第 一 个 事务 的 XID 是 1939， 第 二 
个 事务 搬入 的 数据 的 xmin 值 是 1940， 小 于 第 二 个 事 
务 的 xmin， 上 所 以 插入 的 id 等 于 7 的 数据 对 第 一 个 事 
务 是 不 可 见 的 。 


2. 通 过 xmax 决 定 事务 的 可 见 性 


通过 xmax 值 判断 事务 的 更 新 操作 和 删除 操作 对 
其 他 事务 的 可 见 性 有 这 几 种 情况 : 1) 如 果 没 有 设 
置 xmax 值 ， 访 行 对 其 他 事务 总 是 可 见 的 ，2) 如 果 
它 被 设置 为 回 滚 事务 的 xid， 该 行 对 其 他 事务 也 是 可 
见 的 ; 3) 如 果 它 被 设置 为 一 个 正在 和 运行， 没有 
COMMIT 和 ROLLBACK 的 事务 的 xid， 该 行 对 其 他 
事务 是 可 见 的 ， 4) 如 果 它 被 设置 为 一 个 已 提交 的 











事务 的 xid， 该 行 对 在 这 个 已 提交 事务 之 后 用 起 的 所 
有 事务 都 是 不 可 见 的 。 


7.3.3” 通 过 pageinspect 观 察 MVCC 


通过 PostgreSQL 文 件 系统 的 存储 格式 可 以 理解 
得 更 清晰 。 在 PostgreSQL 中 ， 可 以 使 用 pageinspect 
这 个 外 部 扩展 来 观察 数据 库 页 面 的 内 容 。 
pageinspect 提 供 了 一 些 函 数 可 以 得 到 数据 库 的 文件 
系统 中 页 面 的 详细 内 容 ， 使 用 它 之 前 移 在 数据 库 中 
创建 扩展 ， 如 下 所 示 : 








mydb=# CREATE EXTENSION pageinspect; 
CREATE EXTENSION 
mydb=# \dx+ pageinspect 
Objects in extension "pageinspect" 
Object description 


function get_raw_page(text,integer) 
function heap_page_items(bytea) 


(19 rows) 


下 面 介 绍 两 个 会 用 到 的 函数 。get_raw_page 
get_raw_page (relname text，fork text，blkno int) 
和 它 的 一 个 重 载 get_raw_page (relname text，blkno 
int) ， 用 于 读 取 relation 中 指定 的 块 的 值 ， 其 中 


relname 是 relation name， 人 参数 fork 可 以 有 main、 





vm、fsm、init 这 几 个 值 ，fork 默 认 值 是 main，main 
表示 数据 文件 的 主 文件 ，vm 是 可 见 性 映 冉 的 块 文 
件 ，fsm 为 free space map 的 块 文件 ，init 是 初始 化 的 
块 。get_raw_page 以 一 个 bytea 值 的 形式 返回 一 个 找 
由。heap_page_items heap_page_items 显 示 一 个 堆 页 
面 上 所 有 的 行 指针 。 对 那些 使 用 中 的 行 指 针 ， 元 组 
头 部 和 元 组 原始 数据 也 会 被 显示 。 不 管 元 组 对 于 找 
贝 原始 页 面 时 的 MVCC 快 照 是 否 可 见 ， 它 们 都 会 被 
显示 。 一 般 使 用 get_raw_page 函 数 获得 堆 页 面 映像 
作为 参数 传递 给 heap_page_items。 


我 们 创建 如 下 的 视图 以 便 更 清晰 地 观察 
PostgreSQL 的 MVCC 是 如 何 控 制 并 发 时 的 多 版 本 。 
这 个 视图 来 自 BRUCE MOMJIAN 的 一 篇 博客 文章 ， 
他 的 博客 地 址 : http://momjian.us/ 。 











DROP VIEW IF EXISTS v_pageinspect; 
CREATE VIEW v_pageinspect AS 
SELECT '(0,' || lp || ')' AS ctid， 
CASE lp_flags 
WHEN © THEN "Unused ' 
WHEN 1 THEN Normal' 
WHEN 2 THEN "Redirect to ' || lp_off 
WHEN 3 THEN "Dead ' 
END, 
t_xmin::text::int8 AS xmin, 
t_xmax: :text::int8 AS xmax, 
t_ctid 
FROM heap_page_items(get_raw page('tbl mvcc', 0)) 
ORDER BY 1p; 


先 看 不 考虑 并 发 的 情况 : 当 INSERT 数 据 时 ， 
事务 会 将 INSERT 的 数据 的 xmin 的 值 设 置 为 当前 事 
务 的 xid，xmax 设 置 为 NULL， 如 下 所 示 : 





mydb=# BEGIN ， 
mydb=# SELECT txid_current(); 
txid_current 





mydb=# INSERT INTO tbl mvcc (ival) VALUES (1); 
mydb=# SELECT * FROM v_pageinspect; 


ctid | case | xmin | xmax | t_ctid 
i Fe 
(0,1) | Normal | S565 | 0 | (0,1) 
(1 row) 
mydb=# END; 





-- 上 一 条 INSERT 语 句 插入 的 数据 xmin 的 值 设置 为 当前 事务 的 xid，565，xmax 设 ! 








当 DELETE 数 据 时 ， 将 xmax 的 值 设置 为 当前 事 
务 的 xid， 如 下 所 示 : 





mydb=# BEGIN ， 

BEGIN 

mydb=# SELECT txid_current(); 
txid_current 


(1 row) 


mydb=# DELETE FROM tbl mvcc WHERE id = 1; 


DELETE 1 
mydb=# SELECT * FROM v_pageinspect; 

ctid | case | xmin | xmax | t_ctid 
和 二 


(0,1) | Normal | 565 | 566 | (0,1) 


(1 row) 


mydb=# END; 
COMMIT 











当 UPDATE 数 据 时 ， 对 于 每 个 更 新 的 行 ， 首 先 
DELETE 原 先 的 行 ， 再 执行 INSERT， 如 下 所 示 : 








mydb=# INSERT INTO tbl_mvcc (ival) VALUES (2); -- 先 插 入 一 条 准备 
mydb=# BEGIN; 
mydb=# SELECT txid_current(); 

txid_current 





639 
(1 row) 
-- 当前 的 事务 id 为 639 
mydb=# SELECT * FROM tbl mvcec; 
id | ival 
ee ET 
2 | 2 
(1 row) 


-- 现在 tbl_mvcc 中 只 有 一 行 记录 
mydb=# SELECT * FROM v_pageinspect; 








ctid | case | xmin | xmax | t_ctid 
i 有 
(0,1) | Normal | 567 | 0 | (0,1) 
(1 row) 
-- 通过 pageinspect 查 看 page 的 内 部 ， 这 条 记录 的 xmin 为 当前 事务 的 xid， 也 就 
xid, 567。 
mydb=# UPDATE tbl mvcc SET ival = 20 WHERE id = 2; 
-- 更 新 这 条 记录 
mydb=# SELECT * FROM v_pageinspect,; 
ctid | case | xmin | xmax | t_ctid 
2 站- 
(0,1) | Normal | 567 | 639 | (0,2) 
(0,2) | Normal | 639 | 0 | (0,2) 
(2 rows ) 
mydb=# END; 


二 一 


通过 pageinspect 查 看 page 的 内 部 ， 可 以 看 到 

UPDATE 实 际 上 是 先 DELETE 先 前 的 数据 ， 再 
INSERT 一 行 新 的 数据 ， 前 面 验证 过 插入 这 条 数据 
的 事务 的 xid 为 567， 可 以 看 到 ctid 为 《0，1) 的 这 条 
记录 的 xmin 为 567，xmax 等 于 当前 事务 的 xid: 
639， 男 外 在 这 个 page 中 多 了 一 条 ctid 为 《0，2) 的 
记录 ， 它 的 xmin 等 于 当前 事务 的 xid: 639。 这 时 候 
数据 库 中 束 存 在 两 个 版 本 了 ， 一 个 是 补 UPDATE 之 
前 的 那 条 数据 ， 另 外 一 个 是 UPDATE 之 后 被 重新 插 
入 的 那 条 数据 。 











7.3.4 ”使 用 pg_repack 解 决 表 及 胀 问题 


尽管 PostgreSQL 的 MVCC 读 不 阻塞 写 ， 写 不 阻 
塞 访 ， 实 现 了 高 性 能 和 高 否 吐 量 ， 但 也 有 它 不 足 的 
地 方 。 通 过 观察 数据 块 的 内 部 结构 ， 我 们 已 经 了 解 
到 在 PostgreSQL 中 数据 采用 堆 表 保存 ， 并 且 MVCC 
的 旧版 本 和 新 版 本 存储 在 同一 个 地 方 ， 如 果 更 新 大 
量 数据 ， 将 会 导致 数据 表 的 膨胀 。 例 如 一 张 一 万 条 
数据 的 表 ， 如 果 对 它 进 行 一 次 全 量 的 更 新 ， 根 据 
PostgreSQL 的 MVCC 的 实现 方式 ， 在 数据 文件 中 每 
条 数据 实际 会 有 两 个 版 本 存在 ， 一 个 版 本 是 更 新 之 
前 的 旧版 本 ， 一 个 版 本 是 更 新 之 后 的 新 版 本 ， 这 两 
个 版 本 并 存 必然 导致 磁盘 的 使 用 率 是 实际 数据 的 一 
倍 ， 对 性 能 也 略 有 影响 。 














使 用 VACUUM 命令 或 者 autovacuum 进 程 将 旧 
版 本 的 破 盘 空间 标记 为 可 用 ， 尽 管 VACUUM 已 经 
被 实现 得 非常 高 效 ， 但 是 没有 办 法 把 已 经 利用 的 磁 
盘 空 间 释 放 给 操作 系统 ，VACUUM FULL 命 令 可 以 
人 但 它 会 阻塞 所 有 其 他 的 操 








pg_repack 是 一 个 可 以 在 线 重建 表 和 索引 的 扩 
展 。 它 会 在 数据 库 中 建立 一 个 和 需要 清理 的 目标 表 
一 样 的 临时 表 ， 将 目标 表 中 的 数据 COPY 到 临时 
并 在 临时 表 上 建立 与 目标 表 一 样 的 索引 ， 然 后 
过 重 命 名 的 方式 用 临时 表 符 换 目 标 表 。 


这 个 小 工具 使 用 非常 简单 ， 可 以 下 载 源 码 编译 
安装 为 例 。 首 先 安 装 pg_repack， 如 下 所 示 : 














[root@pghost1 ~]# yum install -y pg_repack10 


然后 在 数据 库 中 创建 pg_repack 扩 展 ， 如 下 所 
修 : 


mydb=# CREATE EXTENSION pg_repack; 


在 命令 行 中 ， 使 用 pg_repack 对 tbl]_mvcc 表 进行 


重建 ， 如 下 上 所 示 : 


[pos tgres@pghost1 ~]# /usr/pgsql-10/bin/pg_repack -t tb]_mvcc 


可 以 使 用 定时 任务 的 方式 ， 定 期 对 超过 一 定 国 
值 的 表 和 有 索引 进行 重建 ， 达 到 给 数据 库 瘦 身 的 有 目 
的 。PostgreSQL 全 球 开 发 组 在 接 下 来 的 一 两 个 版 本 
中 ， 将 对 MVCC 的 实现 方式 作 较 大 的 改进 ， 我 们 拭 
目 以 每 。 


7.3.5 ”支持 事务 的 DDL 





PostgreSQL 事 务 的 一 个 高 级 功能 就 是 它 能 够 通 
过 预 写 日 志 设 计 来 执行 事务 性 的 DDL。 也 就 是 把 
DDL 语 句 放 在 一 个 事务 中 ， 比 如 创建 表 、 
TRUNCATE 表 等 。 举 个 创建 表 的 例子 ， 如 下 上 所 
和 修 : 


mydb=# DROP TABLE IF EXISTS thbl test 
NOTICE: table "tbl test" does not exist, skipping 
DROP TABLE 

mydb=# BEGIN; 

BEGIN 

mydb=# CREATE TABLE tbl test (ival int); 
CREATE TABLE 

mydb=# INSERT INTO tbl]_ test VALUES (1); 
INSERT © 1 

mydb=# ROLLBACK; 

ROLLBACK 

mydb=# SELECT * FROM tbl test; 


ERROR: relation "tbl test" does not exist 





再 举 个 TRUNCATE 的 例子 ， 如 下 所 示 : 





mydb=# SELECT COUNT(*) FROM tbl mvcc; 
count 


(1 row) 

mydb=# BEGIN; 

BEGIN 

mydb=# TRUNCATE tbl_mvcec ; 

TRUNCATE TABLE 

mydb=# ROLLBACK; 

ROLLBACK 

mydb=# SELECT COUNT(*) FROM tbl mvcec; 
count 





在 上 面 的 例子 中 ，TRUNCATE 命 令 放 在 了 一 
个 事务 中 ， 但 最 后 这 个 事务 回 深 了 ， 表 中 的 数据 都 
完好 无 损 。 





7.4 ”本 章 小 结 


事务 和 多 版 本 并 发 控制 是 数据 库 的 两 个 非常 重 
要 的 概念 ， 本 篇 提 到 的 内 容 只 是 冰山 一 角 ， 在 本 章 
中 我 们 讨论 了 数据 库 并 发 情况 下 可 能 发 生 的 脏 谈 、 
不 可 重复 谈 和 弥 读 现象 以 及 事务 的 概念 ， 通 过 几 个 
例子 演示 了 PostgreSQL 中 这 几 种 读 的 现象 。 了 解 了 
如 何 开 始 一 个 事务 ， 如 何 设置 数据 库 、 会 话 、 单 个 
事务 的 事务 隔离 级 别 ， 人 简单 介绍 了 PostgreSQL 事 务 
隔离 级 别 的 特点 ， 以 及 PostgreSQL 如 何 通过 隐藏 列 
控制 事务 的 可 见 性 ， 并 通过 pageinspect 扩 展 和 一 个 
视图 观察 了 MVCC 的 内 部 信息 ， 最 后 还 介绍 了 
PostgreSQL 强 大 的 支持 事务 的 DDL。 











第 8 章 ”分 区 表 


分 区 表 是 关系 型 数据 库 提 供 的 一 个 亮点 特性 ， 
比如 Oracle 对 分 区 表 的 文 持 已 经 非常 成 熟 ， 人 
用 于 生产 系统 ，PostgreSQL 也 支持 分 区 表 ， 只 是 道 
路 有 些 曲折 ， 早 在 10 厂 本 之 前 PostgreSQL 分 区 表 一 
般 通 过 继承 加 触 友 堪 方 式 实 现 ， 这 种 分 区 方式 不 能 
算是 内 置 分 区 表 ， 而 且 步 又 非常 烦琐 ， 
PostgreSQL10 版 本 一 个 重量 级 的 新 特性 是 文 持 内 置 
分 区 表 ， 在 分 区 表 方 面前 进 了 一 大 步 ， 目 前 文 持 苑 
围 分 区 和 列表 分 区 。 为 了 便于 说 明 ， 继 承 加 触发 堪 
方式 实现 的 分 区 表 称 为 传统 分 区 表 ，10 版 本 提供 的 
分 区 表 称 为 内 置 分 区 表 ， 本 市 将 介绍 这 两 种 分 区 表 
的 创建 、 性 能 测试 和 注意 点 。 
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分 区 表 主 要 有 以 下 优势 : 


. 当 查询 或 更 新 一 个 分 区 上 的 大 部 分 数据 时 ， 
对 分 区 进行 索引 扫描 代价 很 大 ， 然 而 ， 在 分 区 上 使 
用 顺序 扫描 能 提升 性 能 。 


当 需 要 删除 一 个 分 区 数据 时 ， 通 过 DROP 
TABILE 删 除 一 个 分 区 ， 远 比 DELETE 删 除数 据 高 
效 ， 特 别 适 用 于 日 志 数 据 场景 。 


" 由 于 一 个 表 只 能 存储 在 一 个 表 空 间 上 ， 使 用 
分 区 表 后 ， 可 以 将 分 区 放 到 不 同 的 表 空 间 上 ， 例 如 
可 以 将 系统 很 少 访问 的 分 区 放 到 廉价 的 存储 设备 
上 ， 也 可 以 将 系统 常 访问 的 分 区 存储 在 高 速 存储 
le 


分 区 表 的 优势 主要 体现 在 降低 大 表 管 理 成 本 和 
某 些 场景 的 性 能 提升 ， 相 比 普 通 表 性 能 有 何 差异 ? 
本 革 将 对 传统 分 区 表 、 内 置 分 区 表 做 性 能 测试 。 





8.2 ”传统 分 区 表 


传统 分 区 表 是 通过 继承 和 触发 器 方式 实现 的 ， 
其 实现 过 程 步骤 多 ， 非 党 复杂， 需要 定义 父 表 、 定 
义 子 表 、 定 义 子 表 约 束 、 创 建 子 表 索 引 、 创 建 分 区 
插入 、 删 除 、 修 改 函 数 和 触发 器 等 ， 可 以 说 是 在 普 
通 表 基础 上 手工 实现 的 分 区 表 。 在 介绍 传统 分 区 表 
之 前 先 介 绍 继 承 ， 继 承 是 传统 分 区 表 的 重要 组 成 部 


ae 














8.2.1 继承 表 


PostgreSQL 提 供 继承 表 ， 人 简单 地 说 是 首先 定义 
一 张 父 表 ， 之 后 可 以 创建 子 表 并 继父 表 ， 下 面 通 
过 一 个 简单 的 例子 来 理解 。 


创建 一 张 日 志 模 型 表 tbl_log， 如 下 所 示 : 


mydb=> CREATE TABLE tbl_ log(id int4,create date date,1og_ type 
CREATE TABLE 





之 后 创建 一 张 子 表 tbl_log_sql 用 于 存储 SQL 日 
志 ， 如 下 所 示 : 


mydb=> CREATE TABLE tbl_ log_sql(sql text) INHERITS(tb]l] log); 
CREATE TABLE 


通过 INHERITS (tbl_log〉 表 示 表 tbl_log_sql 继 
承 表 tbl_log， 子 表 可 以 定义 额外 的 字段 ， 以 上 定义 
了 sgl 为 额外 字段 ， 其 他 字段 则 继承 父 表 tbl_log， 介 
看 tbl_log_sql 表 结构 ， 如 下 所 示 : 


mydb=> \d tbl_ log_sql 
Table "pguser.tbl_ log_sql" 


Column | Type | Collation | Nullable | Default 
es te 
id | integer | | | 
create date | date | | | 
1og_type | text | | | 
sql | text | | | 


Inherits: tbl_ log 


”从 以 上 看 出 tbl_log_sql 表 有 四 个 字段 ， We 
字段 和 父 表 tbl_log 一 样 ， 第 四 个 字段 sql 为 目 定 义 字 
段 ， 以 上 Inherits: tbl_log 信 息 表示 继承 了 表 
tb]_log。 


父 表 和 和子 表 都 可 以 插入 数据 ， 接 着 分 别 在 父 表 
和 子 表 中 插入 一 条 数据 ， 如 下 所 示 : 





mydb=> INSERT INTO tbl log VALUES (1,'2017-08-26',null); 
INSERT 0 1 

mydb=> INSERT INTO tbl log sql VALUES(2,'2017-08-27',null,'sel 
INSERT 0 1 


这 时 如 果 查 询 父 表 tbl log 会 显示 两 表 的 记录 ， 
如 下 所 示 : 





mydb=> SELECT * FROM tbl log; 
id | create date | log_type 
人 站 
1 | 2017-08-26 | 
2 | 2017-08-27 | 
(2 rows) 








尽管 得 询 父 表 会 将 于 表 的 记录 数 也 列 出 ， 但 于 
表 自 定义 的 字段 没有 显示 ， 如 果 想 确定 数据 来 源 于 
哪 张 表 ， 可 通过 以 下 SQL 查 看 表 的 OID， 如 下 所 
和 修 : 





mydb=> SELECT tableoid, * FROM tbl_ log; 
tableoid | id | create date | log_type 
和 下 六 
16854 | 1 | 2017-08-26 | 
16860 | 2 | 2017-08-27 | 
(2 rows) 








tableoid 是 表 的 隐藏 字段 ， 表 示 表 的 OID， 可 通 
过 pg_class 系 统 表 关 联 找到 表 名 ， 如 下 所 示 : 





mydb=> SELECT p.relname,c.* 
FROM tbl log c, pg_class pp 
WHERE c.tableoid = p.oid; 
relname | id | create date | log_ type 
区 人 
tbl_log | 1 | 2017-08-26 | 


tbl_log_sql | 2 | 2017-08-27 | 
(2 rows) 


如 果 只 想 碍 询 父 表 的 数据 ， 需 在 父 表 名 称 前 加 
上 关键 字 ONLY， 如 下 所 示 : 


mydb=> SELECT * FROM ONLY tb1_ log; 
id | create date | log_type 
SE 有 
1 | 2017-08-26 | 
(1 row) 


因此 ， 对 于 UPDATE、DELETE、SELECT 操 
作 ， 如 果 父 表 名 称 前 没有 加 ONLY， 则 会 对 父 表 和 
所 有 子 表 进 行 DML 操 作 ， 如 下 所 示 : 


mydb=> DELETE FROM tb]_ log; 

DELETE 2 

mydb=> SELECT count(*) FROM tbl_ ]1og; 
count 


从 以 上 绪 末 可 以 看 出 父 表 和 所 有 子 表 数据 者 被 
删除 了 。 


ss 注意 ”对 于 使 用 了 继承 表 的 场景 ， 对 父 表 
的 UPDATE、DELETE 的 操作 需 谨 慎 ， 因 为 会 对 父 


表 和 所 有 子 表 的 数据 进行 DML 操作 。 
8.2.2 ”创建 分 区 表 


接 下 来 介绍 传统 分 区 表 的 创建 ， 传 统 分 区 表 创 
建 过 程 主要 包括 以 下 几 个 步骤 。 


步骤 1 创建 余 表 ， 如 采 父 表 上 定义 了 约束 ， 
子 表 会 继承 ， 因 此 除非 是 全 局 约束 ， 人 否则 不 应 该 在 
父 表 上 定义 约束 ， 态 外 ， 父 表 不 应 该 写 入 数据 。 


步骤 2 ”通过 INHERITS 方 式 创建 继承 表 ， 也 
称 之 为 子 表 或 分 区 ， 子 表 的 字段 定义 应 该 和 父 表 保 
持 一 致 。 


步骤 3 ”给 所 有 子 表 创建 约束 ， 只 有 满足 约束 
条 件 的 数据 才能 写 入 对 应 分 区 ， 注 意 分 区 约束 值 苍 
围 不 要 有 重 登 。 


步骤 4 ”给 所 有 子 表 创建 索引 ， 由 于 继承 操作 
不 会 继承 父 表 上 的 索引 ， 因 此 索引 需要 手工 创建 。 


步骤 5 ”在 父 表 上 定义 INSERT、DELETE、 
UPDATE 触 发 器 ， 将 SQL 分 发 到 对 应 分 区 ， 这 步 可 
选 ， 因 为 应 用 可 以 根据 分 区 规则 定位 到 对 应 分 区 进 
行 DML 操 作 。 











步骤 6 启用 constraint exclusion 参 数 ， 如 果 这 
个 参数 设置 成 off， 则 父 表 上 的 SQL 性 能 会 降低 ， 后 
面 会 通过 示例 解释 这 个 参数 。 


以 上 六 个 步骤 是 创建 传统 分 区 表 的 主要 步骤， 
痰 下 来 天 对 一个 示 从 | 江 示 创建 一 张 范围 分 区 表 ， 对 
且 定 义 年 月 子 表 存储 月 数据 。 


首先 创建 余 表 ， 如 下 所 未: 








CREATE TABLE log_ins(id serial, 
user_id int4, 
create_ time timestamp(0) without time zone); 





创建 13 张 子 表 ， 如 下 所 示 : 





CREATE TABLE log_ins history(CHECK ( create time < '2017-01-01 
CREATE TABLE log_ins 201701(CHECK ( create time >= '2017-01-01 
CREATE TABLE log_ins 201702(CHECK ( create time >= '2017-02-01 


CREATE TABLE log_ins 201712(CHECK ( create time >= '2017-12-01 





中 间 省 略 了 部 分 脚本 ， 给 子 表 创建 索 引 ， 如 下 
所 示 : 





CREATE INDEX idx_his ctime ON log_ins _ history USING btree (cre 
CREATE INDEX idx_log_ins 201701 ctime ON log_ins_ 201701 USING 
CREATE INDEX idx_log_ins_ 201702_ctime ON log_ins_ 201702 USING 


CREATE INDEX idx_log_ins 201712_ctime ON log_ins_ 201712 USING 





由 于 父 表 上 不 存储 数据 ， 可 以 不 用 在 父 表 上 创 
建 索 引 。 


创建 触及 带 函 数 ， 设 置 数据 插入 父 表 时 的 路 由 
规则 ， 如 下 所 示 : 





CREATE OR REPLACE FUNCTION log_ ins_insert_ trigger() 
RETURNS trigger 
LANGUAGE plpgsql 
AS $function$ 
BEGIN 
IF ( NEW,. create time < '2017-01-01' ) THEN 
INSERT INTO log_ins_ history VALUES (NEW.*); 
ELSIF ( NEW.create time>='2017-01-01' and NEW.create time< 
INSERT INTO log_ins 201701 VALUES (NEW.*); 
ELSIF ( NEW.create time>='2017-02-01' and NEW.create time< 
INSERT INTO log_ins 201702 VALUES (NEW.*); 


ELSIF ( NEW.create time>='2017-12-01' and NEW.create time< 
INSERT INTO log_ins 201712 VALUES (NEW.*); 
ELSE 
RAISE EXCEPTION 'create time out of range. Fix the lc 
END IF; 
RETURN NULL ， 
END; 
$function$; 





函数 中 的 new.* 是 指 要 插入 的 数据 行 ， 在 父 表 
上 定义 插入 触发 占 ， 如 下 所 示 : 





CREATE TRIGGER insert_log_ins_trigger BEFORE INSERT ON log_ins 





触发 器 创建 完成 后 ， 往 父 表 log_ins 插 入 数据 
时 ， 会 执行 触发 器 并 触发 函数 
log_ins_insert_trigger( ) 将 表 数 据 插 入 到 相应 分 区 
中 。DELETE、UPDATE 触 发 器 和 函数 创建 过 程 和 
INSERT 方 式 类 似 ， 这 里 不 再 列 出 ， 这 步 完 成 之 
后 ， 传 统 分 区 表 的 创建 步 又 已 全 部 完成 。 








= 沂 意 。 父 表 和 子 表 都 可 以 定义 主键 约束 ， 
但 会 市 来 一 个 问题 ， 由 于 父 表 和 子 表 的 主键 约束 是 
分 别 创建 的 ， 那 么 可 能 在 父 表 和 子 表 中 存在 重复 的 
主键 数据 ， 这 对 整个 分 区 表 说 来 做 不 到 主键 唯一 ， 
举 个 简单 的 例子 ， 假 如 在 父 表 和 所 有 子 表 的 uset_id 
字段 上 创建 主键 ， 父 表 与 子 表 及 子 表 与 子 表 之 间 可 
能 存在 相同 的 useft id， 这 点 需要 注意 。 


8.2.3 ”使 用 分 区 表 


往 父 表 log_ins 插 入 测试 数据 ， 并 验证 数据 是 否 
插入 对 应 分 区 ， 如 下 所 示 : 


INSERT INTO log_ins(user_id,create time) 
SELECT round(100000000*random()),generate_ series('2016-12-01': 
'2017-12-01'::date, '1 minute'); 


这 里 通过 round (100000000*random () ) 随 


机 生成 8 位 整数 ，generate_series 函 数 生 成 时 间 数 
据 ， 数 据 如 下 所 示 : 





mydb=> SELECT * FROM log_ins LIMIT 2; 
id | user_id | create_ time 
人 站 
570242 | 24040985 | 2016-12-01 00:00:00 
570243 | 10814368 | 2016-12-01 00:01:00 
(2 rows) 





但 看 父 表 数据 ， 友 现 父 表 里 没有 数据 ， 如 下 所 


Pim 


人 小。 





mydb=> SELECT count(*) FROM ONLY log_ins; 
count 


(1 row) 


mydb=> SELECT count(*) FROM log_ins; 
count 


525601 
(1 row) 








但 看 子 表 数 据 ， 如 下 所 示 : 





mydb=> SELECT min(create time),max(create time) FROM log_ins 2 
min | max 
I A EN rr i tr 
2017-01-01 00:00:00 | 2017-01-31 23:59:00 
(1 row) 


二 一 





这 说 明子 表 里 可 得到 数据 ， 碍 看 于 和 大 小 ， 如 
下 历 示 ， 





mydb=> \dt+ log_ins* 
List of relations 


Schema | Name | Type | Owner | Size | Cc 
2 i a 人 Rt 十 - - 

pguser | log_ins | table | pguser | 0 bytes 

pguser | log ins 201701 | table | pguser | 1960 kB | 

pguser | log_ins 201702 | table | pguser | 1768 kB | 


pguser | log_ins 201712 | table | pguser | 8192 bytes | 
pguser | log_ins history | table | pguser | 1960 kB | 
(14 rows) 





由 此 可 见 数据 都 已 经 插入 到 子 表 里 。 
8.24 至 说 分 和 这 是 于 来 
假如 我 们 检索 2017-01-01 这 一 天 的 数据 ， 我 们 


可 以 查询 父 表 ， 也 可 以 直接 得 询 子 表 ， 两 者 性 能 上 
征 售 有 将 异 呢 ? 查询 父 表 的 执行 计划 如 下 所 示 : 




















mydb=> EXPLAIN ANALYZE SELECT * FROM log_ins WHERE create time 
QUERY PLAN 
Append (cost=0.00..45.97 rows=1435 width=16) (actual time 
-> Sed Scan on log_ins (cost=0.00..0.00 rows=1 width 
Filter: ((create time > '2017-01-01 00:00:00"::tinm 
tamp without time zone)) 
-> Index Scan USING idx_log_ins 201701 ctime on log_i 
rows=1439 loops=1) 
Index Cond: ((create time > '2017-01-01 00:00:00': 


Imestamp without time zone) ) 
Planning time: 0.581 ms 
Execution time: 0.515 ms 

(7 rows) 


从 以 上 执行 计划 看 出 在 分 区 log_ins_201701 上 
进行 了 索引 扫描 ， 执 行 时 间 为 0.515 又 秒 ， 接 着 但 看 
直接 查询 子 表 log_ins_201701 的 执行 计划 ， 如 下 所 
和 仆 : 











mydb=> EXPLAIN ANALYZE SELECT * FROM log_ins 201701 WHERE crea 
QUERY PLAN 

Index Scan USING idx_log_ins_ 201701_ctime on log_ins_2017C 
439 loops=1) 

Index Cond: ((create time > '2017-01-01 00:00:00'::tin 
without time zone)) 

Planning time: 0.142 ms 

Execution time: 0.337 ms 
(4 rows) 








从 以 上 执行 计划 看 出 ， 直 接 但 询 子 表 只 需要 
0.337 坚 秒 ， 性 能 上 有 一 定 提升 ， 如 宋 并 妈 量 上 去 的 
话 ， 这 个 差异 将 更 明显 ， 因 此 在 实际 生产 过 程 中 ， 
对 于 传统 分 区 表 分 区 方式 ， 不 建议 应 用 访问 父 表 ， 
而 是 直接 访问 子 表 ， 也 许 有 人 会 问 ， 应 用 如 何 定 位 
到 访问 哪 张 子 表 呢 ? 可 以 根据 预先 的 分 区 约束 定 
义 ， 本 节 这 个 例子 log_ins 是 根据 时 间 范 围 分 区 ， 那 
么 应 用 可 以 根据 时 间 来 判断 查询 哪 张 子 表 ， 当 然 ， 
以 上 是 根据 分 区 表 分 区 键 查 询 的 场景 ， 如 末 根 据 非 




















分 区 键 查 询 则 会 扫 摘 分 区 表 的 所 有 分 区 。 
8.2.5 ”constraint exclusion 参 数 


constraint_exclusion 参 数 用 来 控制 优化 器 是 否 
根据 表 上 的 约束 来 优化 查询 ， 参 数值 为 以 下 值 ， 


. on: 所 有 表 都 通过 约束 优化 查询 ; 
off: 所 有 表 都 不 通过 约束 优化 查询 ; 


pattition: 只 对 继承 表 和 UNION ALL 子 查询 
通过 检索 约束 来 优化 查询 ; 

简单 地 说 ， 如 果 设 置 成 on 或 partition， 查 询 父 
表 时 优化 器 会 根据 子 表 上 的 约束 判断 检索 哪些 子 
表 ， 而 不 需要 扫 摘 所 有 子 表 ， 从 而 提升 得 询 性 能 ， 


接 下 来 在 会 话 级 别 将 参数 constraint_exclusion 设 置 成 
off， 进 行 测试 ， 如 下 所 示 : 


mydb=> SET constraint_ exclusion =off; 
SET 


接 下 来 但 询 父 表 ， 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT * FROM log_ins WHERE create time 


QUERY PLAN 
Append Na 0.00..94.40 rows=1447 width=16) (actual time 
Seq Scan on log_ins (cost=0.00..0.00 rows=1 
i ((create time > '2017-01-01 00:00:;00'::timest 
-> Index Scan USING idx_his ctime on Tod 
Index Cond: ((create time > '2017-01-01 00:00: 
timestamp without time zone)) 
-> Index Scan USING idx_log_ins_201701 ctime on 1 
rows=1439 loops=1) 

Index Cond: ((create time > '2017-01-01 00:00: 

timestamp without time zone))=0 loops=1) 


-> Sed Scan on log ins 201712 (cost=0.00..1.01 r 
Filter: ((create time > '2017-01-01 00:00:00': 
timestamp without time zone)) 
Rows Removed by Filter: 1 
Planning time: 1.344 ms 
Execution time: 0.685 ms 
(32 rows) 





从 以 上 执行 计划 看 出 ， 碍 询 父 表 时 扫描 了 所 有 
分 区 ， 执 行 时 间 上 升 到 了 0.685 坚 秒 ， 性 能 下 降 不 
少 ， 假 如 一 张 分 区 表 有 成 上 上 于 个 分 区 ， 扫 摘 所 有 
分 区 和 带 来 的 性 能 下 降 将 会 非常 大 ， 因 此 ， 这 个 参数 
建议 设置 成 partition， 不 建议 设置 成 on， 因 为 优化 
器 通过 检查 约束 来 优化 查询 的 方式 本 身 就 带 来 一 定 
如 果 所 有 表 都 司 用 这 个 特性 ， 将 加 重 优化 需 
J 负担 。 





8.2.6 ”添加 分 区 





添加 分 区 属于 分 区 表 维 护 的 常规 操作 之 一 ， 


如 历史 表 范 围 分 区 到 期 之 前 需要 扩 分 区 ，log_ins 表 
为 日 记 表 ， 每 个 分 区 存储 当月 数据 ， 假 如 分 区 快 到 
期 了 ， 可 通过 以 下 SQL 扩 分 区 ， 首 先 创 建 子 表 ， 如 
EO 


CREATE TABLE log_ins 201801(CHECK ( create time >= '2018-01-01 





通常 会 多 定义 一 些 分 区 ， 这 个 操作 要 根据 具体 
场景 来 进行 。 


之 后 创建 相关 索引 ， 如 下 所 示 : 


CREATE INDEX idx_log_ins 201801 ctime ON log_ins 201801 USING 
(create time); 


然后 刷新 触发 器 函数 
log ins_insert_trigger () ， 添 加 相应 代码 ， 将 符合 
路 由 规则 的 数据 插入 新 分 区 ， 详 见 之 前 定义 的 这 个 
函数 ， 这 步 完 成 后 ， 添 加 分 区 操作 完成 ， 可 通过 
\d+log_ins 命 令 查 看 log_ins 的 所 有 分 区 。 

这 种 方法 比较 直接 ， 创 建 分 区 时 残 将 分 区 继承 


到 父 表 ， 如 果 中 间 步 又 有 错 可 能 对 生产 系统 融 来 影 
啊 ， 比 较 推 荐 的 做 法 是 将 以 上 操作 分 解 成 以 下 几 个 





步骤 ， 降 低 对 生产 系统 的 影响 ， 如 下 所 示 : 








- -创建 分 区 
CREATE TABLE log_ins 201802(LIKE log_ins INCLUDING ALL ); 


- -添加 约束 
ALTER TABLE log_ins 201802 ADD CONSTRAINT log_ins 201802_creat 
CHECK ( create time >= '2018-02-01' AND create time < '2018-C 


- -刷新 触发 器 函数 lo0g_ins_insert_trigger() 
函数 刷新 前 建议 先 备份 函数 代码 。 


-- 所 有 步骤 完成 后 ， 将 新 分 区 log_ins_201802 继 承 到 父 表 1og_ins 
ALTER TABLE log_ins 201802 INHERIT log_ins; 




















以 上 方法 是 将 新 分 区 所 有 操作 完成 后 ， 再 将 分 
区 继承 到 父 表 ， 降 低 了 生产 系统 添加 分 区 操作 的 风 
险 ， 当 然 ， 在 生产 系统 添加 分 区 前 建议 在 测试 环境 
事先 演练 一 把 。 


8.2.7 删除 分 区 














分 区 表 的 一 个 重要 优势 是 对 于 大 表 的 管理 上 十 
分 方便 ， 例 如 需要 删除 历史 数据 时 可 以 直接 删除 一 
个 分 区 ， 这 比 DELETE 方 式 效率 高 了 多 个 数量 级 ， 
传统 分 区 表 删 除 分 区 通常 有 两 种 方法 ， 第 一 种 方法 
是 直接 删除 分 区 ， 如 下 所 示 : 





DROP TABLE log_ins_ 201802 





就 像 删 除 普 通 表 一 样 删 除 分 区 即 可 ， 当 然 删除 
分 区 前 需 再 三 确认 是 人 否 需 要 备份 数据 ; 另 一 种 比较 
推荐 的 删除 分 区 方法 是 先 将 分 区 的 继承 关系 去 抒 ， 
如 下 上 所 示 : 








mydb=> ALTER TABLE log_ins 201802 NO INHERIT log_ins; 
ALTER TABLE 


执行 以 上 命令 后 ，log_ins_201802 分 区 不 再 属 
于 分 区 表 ]log_ins 的 分 区 ， 但 log_ins_201802 表 依然 
保留 可 供 得 询 ， 这 种 方式 相 比 方法 一 提供 了 一 个 组 
冲 时 间 ， 属 于 比较 稳妥 的 删除 分 区 方法 ， 因 为 在 拿 
折子 表 继 承 关 系 后 ， 只 要 没 删除 这 个 子 表 ， 还 可 以 
使 子 表 重 新 继承 父 表 。 
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分 区 和 创建 完成 后 ， 如 何 得 看 分 区 表 定 义 、 分 
区 表 分 区 信息 呢 ? 比较 常用 的 方法 是 通过 \d 元 命 
令 ， 如 下 所 示 : 





mydb=> \d log_ins 
Table "pguser.1og_ins" 
Column | Type | Collation | Nullable | Def 
i 中 
id | integer | not null | nextval('log_ins_id_sedq' 
user_id | integer | | 
create time | timestamp(0) without time zone | | 


Triggers: 
insert_ log_ins_ trigger BEFORE INSERT ON log_ins FOR EACH F 
Number of child tables: 14 (Use \d+ to list them.) 








以 上 信息 显示 了 表 log_ins 有 14 个 分 区 ， 并 且 创 
建 了 触发 器 ， 触 发 右 函 数 为 
log ins_insert_trigger () ， 如 果 想 列 出 分 区 名 称 可 
通过 \d+log_ins 元 命令 列 出 。 


另 一 种 列 出 分 区 表 分 区 信息 方法 是 通过 SQL 命 
如 下 上 所 示 : 











mydb=> SELECT 
nmsp_parent .nspname AS parent_schema ， 
parent ,relname AS parent ， 
nmsp_child.nspname AS child_schema ， 
child.relname AS child_schema 
FROM 
pg_inherits JOIN pg_class parent 
ON pg_inherits.inhparent = parent.oid JOIN pg_class ch 
ON pg_inherits.inhrelid = child.oid JOIN pg_namespace 
ON nmsp_parent.oid = parent.relnamespace JOIN pg_names 
ON nmsp_child.oid = child.relnamespace 


WHERE 
parent.relname = 'log_ins'; 
parent_schema | parent | child schema | child_ schema 
人 于 信守 
pguser | log_ins | pguser | log_ins_history 
pguser | log_ins | pguser | log_ins 201701 
pguser | log_ins | pguser | log_ins_ 201702 
pguser | log_ins | pguser | log_ins 201801 
(14 rows) 





pg_inherits 系 统 表 记 录 了 子 表 和 父 表 之 间 的 继 


承 天 系 ， 通 过 以 上 但 询 列 出 指定 分 区 表 的 分 区 。 如 
果 想 查看 一 个 库 中 有 哪些 分 区 表 ， 并 显示 这 些 分 区 
表 的 分 区 数量 ， 可 通过 以 下 SQL 碍 询 : 











mydb=> SELECT 
nspname ， 
relname ， 
count(*) AS partition_num 
FROM 
pg_class C ， 
pg_namespace n ， 
pg_inherits i 
WHERE 
c.oid = i.inhparent 
AND c.relnamespace = n.oid 
AND c.relhassubclass 
AND c.relkind in ('r','p') 
GROUP BY 1,2 ORDER BY partition_num DESC; 
nspname | relname | partition_num 
有 有 
pguser | log_ins | 14 
pguser | tbl log | 1 
(2 rows) 








以 上 结果 显示 当前 库 中 有 两 个 分 区 表 ，log_ins 
分 区 表 有 14 个 分 区 ，tbl_log 分 区 表 只 有 一 个 分 区 。 


8.2.9 性 能 测试 





基于 分 区 表 的 分 区 键 、 非 分 区 键 查询 和 普通 表 
性 能 有 何 差异 呢 ?” 本 市 继续 进行 测试 ， 将 
create_time 字 段 作 为 传统 分 区 表 log_ins 的 分 区 键 ， 
user_ id 字段 作为 分 区 表 的 非 分 区 键 。 








首先 创建 一 张 普通 表 log， 表 结构 和 ]og_ins 完 全 
一 致 ， 并 插入 测试 数据 ， 如 下 所 示 : 





CREATE TABLE log(id 
serial,user_id int4, 
create_ time timestamp(0) without time zone); 


INSERT INTO log(user_id,create time) 
SELECT round(100000000*random()),generate series('2016-12-01": 
'2017-12-01'::date, '1 minute'); 





但 看 两 表 记 录 数 ， 如 下 所 示 : 





mydb=> SELECT count(*) FROM log_ins; 
count 

525601 

(1 row) 


mydb=> SELECT count(*) FROM log; 
count 

525601 

(1 row) 





两 表 数 据 量 是 一 样 的 ， 普 通 表 log 创 建 索引 ， 
如 下 所 示 : 





CREATE INDEX idx_log userid ON log USING btree(user_ id); 
CREATE INDEX idx_log_ create time ON log USING btree(create_ tin 





在 分 区 表 log_ins 父 表 和 所 有 子 表 的 user_id 上 创 
建 么 引 ， 如 下 上 所 示 : 





CREATE INDEX idx_log_ins userid ON log_ins USING btree(user_id 
CREATE INDEX idx_his userid ON log_ ins_ history USING btree (us 
CREATE INDEX idx_log_ins 201701_ userid ON log_ins 201701 USING 
CREATE INDEX idx_log_ins 201702_userid ON log_ins 201702 USING 


CREATE INDEX idx_log_ins 201801 userid ON log_ins 201801 USING 











接 下 来 根据 user_id 进 行 检 索 ， 对 于 分 区 表 
log_ins 来 说 ， 这 是 非 分 区 键 ， 在 根据 user_id 检 过 的 
场景 下 ， 普 通 表 和 分 区 表 性 能 差异 如 何 呢 ? 设置 场 
景 一 测试 SQL， 如 下 所 示 : 





- -场景 一 : 根据 user_id 检 索 
SELECT * FROM log WHERE user_id=?; 
SELECT * FROM log_ins WHERE user_id=?; 





首先 查找 一 个 在 表 log 和 log_ins 都 存在 的 
user_id， 如 下 所 示 : 





mydb=> SELECT a.* FROM log a ,log_ins b WHERE a.user_id=b.user 


id | user_id | create_ time 
PR NE oe 
67286 | 51751630 | 2017-01-16 17:25:00 
(1 row) 








根据 user_id=51751630 进 行 检 索 ， 普 通 表 log 上 


的 执行 计划 如 下 所 示 : 





mydb=> EXPLAIN SELECT * FROM log WHERE user_id=51751630; 
QUERY PLAN 
Index Scan Using idx_log_userid on log (cost=0.42..4.44 r 
Index Cond: (user_id = 51751630) 
(2 rows) 





以 上 和 奉 询 进行 了 索引 扫 摘 ， 根 据 非 分 区 键 
user_id 进 行 检索 ， 分 区 表 执 行 计划 则 完全 不 一 样 ， 
如 下 所 示 : 





mydb=> EXPLAIN SELECT * FROM log_ins WHERE user_id=51751630; 
QUERY PLAN 
Append (cost=0.00..63.18 rows=23 width=16) 
-> Sed Scan on log_ins (cost=0.00..0.00 rows=1 width=16) 
Filter: (user_id = 88258037) 
-> Index Scan USING idx_his userid on log_ins history 
(cost=0.29..4.31 rows=1 width=16) 
Index Cond: (user_id = 88258037) 
-> Index Scan USING idx_log_ins_ 201701_ userid on log_ins_ 
(cost=0.29.. 4.31 rows=1 width=16) 
Index Cond: (user_id = 88258037) 
-> Index Scan USING idx_log_ins 201702 userid on log_ins_ 
Index Cond: (user_id = 88258037) 


-> Bitmap Heap Scan on log_ins 201801 (cost=2.22..10.48 
Recheck Cond: (user_id = 88258037) 
-> Bitmap Index Scan on idx_log_ins_ 201801_ userid 
Index Cond: (user_id = 88258037) 
(33 rows) 





从 以 上 执行 计划 看 出 ， 根 据 非 分 区 键 合 询 则 扫 


描 了 分 区 表 所 有 分 区 ， 对 log 表 执行 场景 一 SQL， 执 
行 三 次 ， 最 小 执行 时 间 为 0.050 蝇 秒 ; 对 log _ins 表 执 
行 场景 一 SQL， 执 行 三 次 ， 最 小 执行 时 间 为 0.184 毫 
秒 ; 


create_time 字 段 是 分 区 表 log_ ins 分 区 键 ， 设 置 
场景 二 负 试 SQL， 如 下 所 未: 


- -场景 二 : 根据 create_time 检 索 ; 
SELECT * FROM log WHERE create time > '2017-01-01' AND create_ 
SELECT * FROM log_ins WHERE create time > '2017-01-01' AND cre 


对 log 表 执行 场景 二 SQL， 执 行 三 次 ， 最 小 执行 
时 间 为 0.339 毫 秒 ， 对 log_ins 执 行 场景 二 SQL， 执 行 
三 次 ， 取 最 小 执行 时 间 为 0.503 毫 秒 。 表 8-1 为 场景 
一 、 场 景 二 测试 结果 数据 汇总 。 


表 8-1 首 通 表 、 传 统 分 区 表 性 能 对 比 


查询 场景 普通 表 log 执行 时 间 








分 区 表 : 查询 分 区 表 : 查询 
log_ins 父 表 执 行 时 间 | log_ins 子 表 执 行 时 间 


根据 非 分 区 键 user id 查询 .05 毫秒 0.184 毫秒 不 支持 


根据 分 区 键 create_time 范围 查询 0.325 毫秒 


从 以 上 测试 结果 来 看 ， 在 根据 user_id 检 索 的 场 
景 下 ， 分 区 表 的 性 能 比 普 通 表 性 能 震 了 2.68 倍 ; 在 
根据 create_time 范 围 检索 的 场景 下 ， 分 区 表 的 性 能 
比 普通 表 性 能 产 了 0.4 倍 左右 ， 如 果 查 询 能 定位 到 子 











表 ， 则 比 普 通 表 性 能 略 有 提升 ， 从 分 区 表 的 角 虚 来 
看 ，create_time 作 为 分 区 键 ，user_id 作 为 非 分 区 
键 ， 从 这 个 测试 可 以 得 出 以 下 结论 : 


1) 分 区 表 根 据 非 分 区 键 查询 相 比 普通 表 性 能 
大 距 较 大 ， 因 为 这 种 场景 分 区 表 的 执行 计划 会 扫 摘 
所 有 分 区 ; 

2) 分 区 表 根 据 分 区 键 得 询 相 比 普 通 表 性 能 
小 幅 降 低 ， 而 僵 询 分 区 表 子 表 性 能 比 普 通 表 略 有 所 
J 











以 上 两 个 场景 除了 场景 二 和 直接 检索 分 区 表 子 
表 ， 人 性 能 相 比 普通 表 略 有 提升 ， 其 他 测试 项 分 区 表 
比 普通 表 性 能 都 低 ， 因 此 出 于 性 能 考虑 对 生产 环境 
业务 表 做 分 区 表 时 需 层 重 ， 使 用 分 区 表 不 一 定 能 所 
升 性 能 ， 如 果 业 务 模型 90% (估算 的 百分比 ， 意 思 
是 大 部 分 ) 以 上 的 操作 部 能 基于 分 区 健 操 作 ， 并 且 
SQL 可 以 定位 到 子 表 ， 这 时 建议 使 用 分 区 表 。 




















8.2.10 ”传统 分 区 表 注 意 事 项 





传统 分 区 表 的 使 用 有 以 下 注意 事项 : 


当 往 父 表 上 桂 入 数据 时 ， 需 事先 在 父 表 上 创 
建 路 由 函数 和 和 触发 器 ， 数 据 才 会 根据 分 区 键 路 由 规 


则 插入 到 对 应 分 区 中 ， 目 前 仅 支持 范围 分 区 和 列表 


分 区 。 


分 区 表 上 的 索引 、 约 束 需要 使 用 单独 的 命令 
创建 ， 目 前 没有 办 法 一 次 性 自动 在 所 有 分 区 上 创建 
0 


` 父 表 和 子 表 允 许 单 独 定义 主键 ， 因 此 父 表 和 
子 表 可 能 存在 重复 的 主键 记录 ， 目 前 不 支持 在 分 区 
表 上 定义 全 局 主键。 


. UPDATE 时 不 建议 更 新 分 区 键 数 据 ， 特 别 是 
会 使 数据 从 一 个 分 区 移动 到 另 一 分 区 的 场景 ， 可 通 
过 更 新 触发 器 实现 ,但 会 带 来 管理 上 的 成 本 。 


` 性 能 方面 : 根据 本 节 的 测试 数据 和 测试 场 
景 ， 传 统 分 区 表 根 据 非 分 区 键 查询 相 比 首 通 表 性 能 
差距 较 大 ， 因 为 这 种 场景 下 分 区 表 会 扫描 所 有 分 
区 ; 根据 分 区 键 查询 相 比 首 通 表 性 能 有 小 幅 降低 ， 
而 查询 分 区 表 子 表 性 能 相 比 普通 表 略 有 提升 ; 


8.3 内置 分 区 表 


PostgreSQL10 一 个 重量 级 新 特性 是 文 持 内 置 分 
区 表 ， 用 户 不 需要 预先 在 父 表 上 定义 INSERT、 
DELETE、UPDATE 触 发 器 ， 对 父 表 的 DML 操 作 会 
自动 路 由 到 相应 分 区 ， 相 比 传统 分 区 表 大 幅度 降低 
了 维护 成 本 ， 目 前 仅 支 持 范围 分 区 和 列表 分 区 ， 本 
小 节 将 以 创建 范围 分 区 表 为 例 ， 演 示 PostgreSQL10 
内 置 分 区 表 的 创建 、 使 用 与 性 能 测试 。 











8.3.1 创建 分 区 表 





创建 分 区 表 的 主要 语法 包含 两 部 分 : 创建 主 表 
和 创建 分 区 。 


创建 主 表 语法 如 下 : 


CREATE TABLE table name ( ... ) 
[ PARTITION BY { RANGE | LIST } ( { column_name | ( expres 





创建 主 表 时 须 指 定 分 区 方式 ， 可 选 的 分 区 方式 
为 RANGE 范围 分 区 或 LIST 列 表 分 区 ， 并 指定 字段 
或 表达 式 作 为 分 区 键 。 


创建 分 区 的 语法 如 下 : 


CREATE TABLE table_name 
PARTITION OF parent table [ ( 
) ] FOR VALUES partition_bound_spec 


创建 分 区 时 必须 指定 是 哪 张 表 的 分 区 ， 同 时 指 
定 分 区 策略 partition_bound_spec， 如 果 是 范围 分 
区 ，partition_bound_spec 须 指定 每 个 分 区 分 区 键 的 
取 值 范围 ， 如 末 是 列表 分 区 partition_bound_spec， 
需 指 定 每 个 分 区 的 分 区 键 值 。 


PostgreSQL10 创 建 内 置 分 区 表 主 要 分 为 以 下 几 


个 步 又: 
1) 创建 父 表 ， 指 定 分 区 键 和 分 区 此 略 。 


2) 创建 分 区 ， 创 建 分 区 时 须 指 定 分 区 表 的 父 
表 和 分 区 键 的 取 值 范围 ， 注 意 分 区 键 的 范围 不 要 有 


重 登 ， 售 则 会 报错 。 


3) 在 分 区 上 创建 相应 索引 ， 退 党 情况 下 分 区 
键 上 的 索引 是 必须 的 ， 非 分 区 键 的 索引 可 根据 实际 
应 用 场景 选择 是 任 创 建 。 


接 下 来 通过 创建 范围 分 区 的 示例 来 演示 内 置 分 
区 表 的 创建 过 程 ， 冯 和 完 创建 一 张 范 围 分 区 表 ， 表 名 








为 log_par， 如 下 所 示 : 





CREATE TABLE log_ par ( 

id serial, 

user_id int4, 

create time timestamp(0) without time zone 
) PARTITION BY RANGE(create time); 








表 ]log_par 指 定 了 分 区 染 略 为 范围 分 区 ， 分 区 键 
为 create time 字段 。 


创建 分 区 ， 并 设置 分 区 的 分 区 键 取 值 范围 ， 如 
不 





CREATE TABLE log par_his PARTITION OF log par FOR VALUES FROM 
TO ('2017-01-01' ); 

CREATE TABLE log_ par_ 201701 PARTITION OF log par FOR VALUES FR 
CREATE TABLE 1og_par_201702 PARTITION OF log par FOR VALUES FR 


CREATE TABLE log_par_201712 PARTITION OF log_par FOR VALUES FR 





注音 分 区 的 分 区 键 范 围 不 要 有 重合 ， 定 义 分 区 
键 范 围 实 质 上 给 分 区 创建 了 约束 。 


给 所 有 分 区 的 分 区 键 创 建 案 引 ， 如 下 所 示 : 








CREATE INDEX idx_log par_his ctime ON log_par_his USING btree( 
CREATE INDEX idx_log_par_201701 ctime ON log_par_201701 USING 
CREATE INDEX idx_log_par_201702_ctime ON log_par_201702 USING 





CREATE INDEX idx_log_par_201712 ctime ON log_par_201712 USING 





以 上 三 步 完 成 了 内 置 分 区 表 的 创建 。 
8.3.2 ”使 用 分 区 表 
问 分 区 表 插 入 数据 ， 如 下 所 示 : 





INSERT INTO log_par(user_id,create time) 
SELECT round(100000000*random()),generate_series('2016-12-01': 
'2017-12-01'::date, '1 minute'); 





伍 看 表 数 据 ， 如 下 所 未 : 





mydb=> SELECT count(*) FROM log_par; 
count 

525601 

(1 row) 


mydb=> SELECT count(*) FROM ONLY log_par; 
count 





从 以 上 结果 可 以 看 出 ， 父 表 log_par 没 有 存储 任 
何 数 据 ， 数 据 存储 在 分 区 中 ， 通 过 分 区 大 小 也 可 以 
证 明 这 一 点 ， 如 下 上 所 示 : 





mydb=> \dt+ log_par* 


Schema 
pguser 
pguser 
pguser 
pguser 
pguser 


| 
-十 
| 


log_par 


lo0g_par_201701 | table 
lo0g_par_201702 | table 


lo0g_par_201712 | table 


log_par_his 


| table 


List of relations 


| Owner 


| pguser 
| pguser 
| pguser 


| pguser 
| pguser 


一 一 一 十 一 一 


0 bytes 
1960 kB 
1768 kB 


8192 bytes | 
1960 KB | 





8.3.3 ”内 置 分 区 表 原 理 探索 


内 置 分 区 表 原 理 实际 上 和 传统 分 区 表 一 样 ， 也 
是 使 用 继承 方式 ， 分 区 可 称 为 子 表 ， 通 过 以 下 查询 
很 明显 看 出 表 log_par 和 其 分 区 是 继承 关系 : 





mydb=> SELECT 
nmsp_parent .nspname AS parent_schema ， 
parent ,relname AS parent ， 
nmsp_child.nspname AS child_schema ， 
child.relname AS child_schema 


FROM 


pg_inherits JOIN pg_class parent 
pg_inherits, inhparent = 


ON 
ON 
ON 
ON 
WHERE 
parent 


parent_schema | parent 


pguser 
pguser 
pguser 


pguser 


.relname = 'l0g_par'; 
| child_schema 
| log_par | pguser 
| log_par | pguser 
| log_par | pguser 


pguser 


parent.oid JOIN pg_class ch 
pg_inherits.inhrelid = child.oid JOIN pg_namespace 
nmsp_parent.oid = parent.relnamespace JOIN pg_names 
nmsp_child.oid = child.relnamespace 


log_par_his 
log_par_201701 
log_par_201702 


| Log_par_201712 


(13 rows ) 


以 上 SQL 显示 了 分 区 表 log_par 的 所 有 分 区 ， 也 
可 以 通过 \d+log_par 元 子 命令 显示 log_par 所 有 分 
区 。 
8.3.4 添加 分 区 


添加 分 区 的 操作 比较 简单 ， 例 如 给 log_par 描 加 
一 个 分 区 ， 如 下 所 示 : 


CREATE TABLE log_par_201801 PARTITION OF log_par FOR VALUES FF 


之 后 给 分 区 创建 索引 ， 如 下 所 示 : 


CREATE INDEX idx_log_par_201801 ctime ON log_par_201801 USING 


8.3.5 删除 分 区 


删除 分 区 有 两 种 方法 ， 第 一 种 方法 通过 DROP 
分 区 的 方式 来 删除 ， 如 下 所 示 : 


DROP TABLE log_par_201801:; 


DROP 方 式 直 接 将 分 区 和 分 区 数据 删除 ， 删 除 
前 需 确认 分 区 数据 是 售 需 要 备份 ， 避 免 效 据 丢 失 ; 
尺 一 种 推荐 的 方法 是 解 绑 分 区 ， 如 下 所 示 : 





mydb=> ALTER TABLE log_par DETACH PARTITION Log_par_201801 
ALTER TABLE 


解 绑 分 区 只 是 将 分 区 和 父 表 间 的 关系 断 开 ， 分 
区 和 分 区 数据 依然 保留 ， 这 种 方式 比较 稳妥 ， 如 果 
后 续 需 要 恢复 这 个 分 区 ， 通 过 连接 分 区 方式 恢复 分 
区 即 可 ， 如 下 所 示 : 


mydb=> ALTER TABLE log_par ATTACH PARTITION log_par_201801 FOF 
ALTER TABLE 


连接 分 区 时 需要 指定 分 区 上 的 约束 。 
8.3.6 ”性 能 测试 


检索 2017-01-01 这 一 天 的 记录 数据 ， 执 行 如 下 
SQL: 


mydb=> EXPLAIN ANALYZE SELECT * FROM log_par WHERE create time 
QUERY PLAN 

Append (cost=0.29..45.21 rows=1396 width=16) (actual time 

-> Index Scan using idx_log par_201701 ctime on log_r 


(cost=0.29.. 45.21 rows=1396 width=16) (actual t 
rows=1439 loops=1) 
Index Cond: ((create time > '2017-01-01 00:00:00 ' : 
Planning time: 0.461 ms 
Execution time: 0.510 ms 
(5 rows) 


从 以 上 执行 计划 看 出 仅 扫 摘 了 分 区 
log_par_201701， 进 行 了 索引 扫描 ， 执 行 时 间 为 
0.510 毫 秒 。 


同样 ， 我 们 将 内 置 分 区 表 log_par 的 性 能 和 log 
表 进 行 对 比 ，create_time 作 为 分 区 表 log_par 的 分 区 
键 ，user_id 作 为 分 区 表 的 非 分 区 键 ， 基 于 分 区 表 的 
分 区 键 、 非 分 区 键 得 询 和 普通 表 性 能 有 何 差 异 呢 ? 
本 市 将 做 进一步 测试 。 


在 分 区 表 log_par 押 有 子 表 的 user_ id 上 创建 索 
引 ， 如 下 所 示 : 














CREATE INDEX idx_log_par_his_userid ON log_par_his using btree 
CREATE INDEX idx_log_par_201701 userid ON log_par_201701 Using 
CREATE INDEX idx_log_par_201702_userid ON log_par_201702 Using 





CREATE INDEX idx_log_par_201712_ userid ON log_par_201712 usino 





根据 user_id 进 行 检索 ， 对 于 分 区 表 log_par 而 言 
这 是 非 分 区 键 ， 设 置 场景 一 测试 SQL， 如 下 所 示 : 


- -场景 一 : 根据 user_id 检 索 
SELECT * FROM log WHERE User_ id=? 
SELECT * FROM log_par WHERE user_id=?; 





我 们 首先 查找 一 个 在 表 log 和 log_par 都 存在 的 
user_ id， 如 下 上 所 示 : 





mydb=> SELECT a.* FROM log a ,log_par b WHERE a.user_id=b.use 
id | user_id | create_ time 
a a 下 
258926 | 70971018 | 2017-05-29 19:25:00 
(1 row) 








根据 user_id=70971018 进 行 检 索 ， 普 通 表 log 上 
的 执行 计划 如 下 所 示 : 





mydb=> EXPLAIN SELECT * FROM log WHERE user_id=70971018; 
QUERY PLAN 
Index Scan Using idx_ log userid on log (cost=0.42..4.44 上 
Index Cond: (user_id = 70971018) 
(2 rows) 





可 以 看 出 以 上 奉 询 进行 了 索引 扫描 。 


根据 非 分 区 键 user_ id 进行 检索 ， 分 区 表 log_par 
上 的 执行 计划 则 完全 不 一 样 ， 如 下 所 示 : 








mydb=> EXPLAIN SELECT * FROM log_par WHERE user_id=70971018; 
QUERY PLAN 


Append (cost=0.29..52.70 rows=13 width=16) 
-> Index Scan using idx_log_par_his_userid on log_par_his 
Index Cond: (user_id = 70971018) 
-> Index Scan using idx_log_par_201701 userid on log_par_ 
(cost=0.29.. 4.31 rows=1 width=16) 
Index Cond: (user_id = 70971018) 
-> Index Scan using idx_log_par_201702_userid on log_par_ 
(cost=0.29,. 4.31 rows=1 width=16) 
Index Cond: (user_id = 70971018) 





-> Sed Scan on log_par_201712 (cost=0.00..1.01 rows=1 wi 
Filter: (user_id = 70971018) 
(27 rows) 





从 以 上 执行 计划 看 出 ， 根 据 非 分 区 键 user_id 检 
索 分 区 表 log_par 扫 描 了 整个 分 区 ， 接 着 log 表 执行 
场景 一 SQL， 执 行 三 次 ， 最 小 执行 时 间 为 0.047 军 
秒 ;，log_par 表 执行 场景 一 SQL， 执 行 三 次 ， 最 小 执 
行 时 间 为 0.139 毫 秒 ; 


create_time 字 段 是 分 区 表 log_par 分 区 键 ， 设 置 
场景 二 负 试 SQL， 如 下 所 未: 





- -场景 二 : 根据 create_time 检 索 ; 
SELECT * FROM log WHERE create time > '2017-01-01' AND create_ 
SELECT * FROM log_par WHERE create time > '2017-01-01' AND cre 





对 log 表 执行 场景 二 SQL， 执 行 三 次 ， 最 小 执行 
时 间 为 0.340 毫 秒 ， 对 log_par 执 行 场景 二 SQL， 执 行 
三 次 ， 最 小 执行 时 间 为 0.503 毫 秒 。 表 8-2 为 场景 
一 、 场 景 二 测试 结果 数据 汇总 。 


表 8-2 普通 表 、 内 置 分 区 表 性 能 对 比 


E 分 区 表 : 查询 
Eo 4 二 压 
普通 表 log 执行 时 间 log_par 父 表 执行 时 间 


0.047 上 毫秒 














区 表 : 查询 
log_par 子 表 执 行 时 间 


不 支持 


查询 场景 





根据 非 分 区 键 user id 查询 


根据 分 区 键 create_time 范围 查询 0.340 上 毫秒 


根据 以 上 测试 结果 ， 在 根据 user_id 检 索 的 测试 
场景 下 ， 内 置 分 区 表 的 性 能 比 普通 表 性 能 差 了 1.95 
首 ; 根据 create_time 范 围 检索 的 场景 下 ， 分 区 表 的 
性 能 比 普 通 表 性 能 差 了 0.47 倍 左右 ， 如 果 查 询 能 定 
位 到 子 表 ， 则 比 普 通 表 性 能 略 有 提升 ， 从 分 区 表 的 
角度 来 看 ，create_time 作 为 分 区 键 ，user_ id 作为 非 
分 区 键 ; 结合 之 前 测试 的 传统 分 区 表 性 能 ， 将 表 8- 
1 和 表 8-2 的 数据 合成 一 张 表格 ， 如 表 8-3 所 示 。 

















| ”| 寺 4 了 表 | 查 击 父 表 ”| 查询 了 和 
根据 非 分 区 键 user | 表 8-1: 0.05 毫秒 


id 查询 0.047 毫秒 | 0.184 毫秒 0.139 毫秒 不 支持 
刁 $ 和 和 EE 


根据 分 区 键 create | 表 8-1: 0.339 毫秒 
time 范围 查询 : 0.340 毫秒 


从 上 表 看 出 传统 分 区 表 和 内 站 分 区 表 的 在 两 个 
得 询 场景 的 性 能 表现 一 致 ， 根 据 测 试 结 朱 同样 能 得 
出 以 下 结论 : 


“ 内 置 分 区 表 根 据 非 分 区 键 查 询 相 比 首 通 表 性 
能 差距 较 大 ， 因 为 这 种 场景 分 区 表 的 执行 计划 会 扫 


0.503 毫秒 0.319 毫秒 











描 所 有 分 区 ; 


内 置 分 区 表 根 据 分 区 键 查询 相 比 普通 表 性 能 
有 小 幅 降 低 ， 而 查询 分 区 表 子 表 性 能 比 普通 表 略 有 
所 蛋 ， 


以 上 两 个 场景 除了 场景 二 和 直接 检索 分 区 表 子 
表 ， 人 性 能 相 比 普通 表 略 有 提升 ， 其 他 测试 项 分 区 表 
比 普通 表 性 能 都 低 ， 因 此 出 于 性 能 考虑 对 生产 环境 
业务 表 做 分 区 表 时 需 层 重 ， 使 用 分 区 表 不 一 定 能 所 
升 性 能 ， 但 内 置 分 区 表 相 比 传统 分 区 表 和 省 去 了 创建 
触发 占 路 由 函数 、 触 友 占 操作 ， 减 少 了 大 量 维护 成 
本 ， 相 比 传统 分 区 表 有 较 大 管理 方面 的 优势 。 














8.3.7 ”constraint_exclusion 参 数 


内 置 分 区 表 执 行 计划 依然 受 
constraint_exclusion 参 数 影响 ， 关 闭 此 参数 后 ， 根 据 
分 区 键 查询 时 执行 计划 不 会 定位 到 相应 分 区 。 先 在 
会 话 级 关闭 此 参数 ， 如 下 所 示 : 


mydb=> SET constraint_ exclusion =off; 
SET 


执行 以 下 SQL 来 查看 执行 计划 ， 如 下 所 示 : 


mydb=> EXPLAIN ANALYZE SELECT * FROM log_par WHERE create time 
QUERY PLAN 

Append (cost=0.29..104.16 rows=1417 width=16) (actual time=(C 

-> Index Scan using idx_log_par_his_ctime on log_par_his 

Index Cond: ((create time > '2017-01-01 00:00:00': 

(create time < '2017-01-02 00:00:00':;:timestamp without time 2 

-> Index Scan using idx_log_par_201701 ctime on log_r 

(actual time=0.016..0.280 rows=1439 loops=1) 
Index Cond: ((create time > '2017-01-01 00:00:00'::ti 





-> Bitmap Index Scan on idx_log_par_201801 ctime 
Index Cond: ((create time > '2017-01-01 00:00: 
(create time < '2017-01-02 00:00:;00'::time 
Planning time: 0.792 ms 
Execution time: 0.607 ms 
(34 rows) 





从 以 上 执行 计划 看 出 扫描 了 分 区 表 上 的 所 有 分 
区 ， 执 行 时 间 上 升 到 了 0.607 毫 秒 ， 同 样 ， 这 个 参数 
建议 设置 成 partition， 不 建议 设置 成 on， 优 化 堪 通 
过 检查 约束 来 优化 查询 的 方式 本 丑 束 带 来 一 定 开 
销 ， 如 果 所 有 表 都 启用 这 个 特性 ， 将 加 重 优 化 右 负 
担 。 











8.3.8 ”更 新 分 区 数据 








内 置 分 区 表 UPDATE 操 作 目 前 不 支持 新 记录 跨 
分 区 的 情况 ， 也 就 是 说 只 允许 分 区 内 的 更 新 ， 例 如 
以 下 SQL 会 报错 : 





mydb=> SELECT * FROM Log_par_ 201701 LIMIT 1; 
Id | user_id | create time 


a 人 
44641 | 16965492 | 2017-01-01 00:00:00 
(1 row) 


mydb=> UPDATE log par SET create time='2017-02-02 01:01:01' WH 


ERROR: new row for relation "log_par_201701" violates partiti 
DETAIL: Failing row contains (44641, 16965492, 2017-02-02 01: 


以 上 user_id 等 于 16965492 的 记录 位 于 
log_par_201701 分 区 ， 将 这 条 记录 的 create_time 更 新 
为 '2017-02-0201: 01: 01' 由 于 违反 了 当前 分 区 的 约 
束 将 报错 ， 如 果 更 新 的 数据 不 违反 当前 分 区 的 约束 
则 可 正常 更 新 数据 ， 如 下 所 示 : 


mydb=> UPDATE log_par SET create time='2017-01-01 01:01:01' WH 
UPDATE 1 





目前 内 站 分 区 表 的 这 一 限制 对 于 日 志 表 影响 不 
大 ， 对 于 业务 表 有 一 定 影响 ， 使 用 时 需 注意 。 








8.3.9 ”内 置 分 区 表 注 意 事 项 





本 简单 介绍 了 内 置 分 区 表 的 部 普 、 使 用 示 
例 ， 使 用 内 置 分 区 表 有 以 下 注意 事项 : 
: 当 往 父 表 上 插入 数据 时 ， 数 据 会 自动 根据 分 


区 键 路 由 规则 插入 到 分 区 中 ， 目 前 仅 支 持 范围 分 区 
和 列表 分 区 。 


- 分 区 表 上 的 索引 、 约 束 需 使 用 单独 的 命令 创 
建 ， 目 前 没有 办 法 一 次 性 自动 在 所 有 分 区 上 创建 索 
引 、 约束 。 


:内置 分 区 表 不 支持 定义 《全 局 ) 主键 ,在 分 
区 表 的 分 区 上 创建 主键 是 可 以 的 。 


` 内 置 分 区 表 的 内 部 实现 使 用 了 继承 。 


` 如 果 UPDATE 语 名 的 新 记录 违反 当前 分 区 键 
的 约 ，UPDAET 语 和 句 的 新 记录 目前 不 支 
持 跨 分 区 的 情 


性 能 方面 : 很 据 本 闻 的 测试 场景 ， 内 置 分 
表 根 据 非 分 区 键 查询 相 比 普通 表 性 能 差距 较 大 ， - 
这 种 汐 归 分 区 驴 提 折 4T 计划 从 叶 析 所 有 分 区 ; 根 
据 分 区 键 查 询 相 比 首 通 表 性 能 有 小 幅 降 低 ， 而 查询 
分 区 表 子 表 性 能 相 比 普通 表 略 有 提升 。 


8.4 ”本章 小 结 


本 章 介 绍 了 传统 分 区 表 和 内 置 分 区 表 的 部 闭 、 
分 区 维护 和 性 能 测试 ， 传 统 分 区 表 通 过 继承 和 触发 
器 实现 ， 创 建 过 程 非 钊 复 休 ， 维 护 成 本 很 局 ， 内 置 
分 区 表 是 PostgreSQL10 新 特性 ， 用 户 不 再 需要 创建 
触发 器 和 函数 ， 省 去 了 大 量 维护 成 本 ， 性 能 方面 两 
者 几乎 无 差异 。 分 区 表 和 普通 表 间 的 性 能 差异 本 章 
通过 两 个 得 询 场 景 进行 了 性 能 对 比 ， 一 个 是 基于 非 
分 区 键 租 询 的 场景 ， 另 一 个 是 基于 分 区 键盘 询 的 场 
景 ， 从 测试 结果 来 看 ， 基 于 非 分 区 键 的 查询 场景 分 
区 表 性 能 比 普通 表 低 很 多 ， 基 于 分 区 键 答 询 分 区 表 
父 表 比 普通 表 性 能 略 低 ， 基 于 分 区 键 得 询 分 区 表 子 
表 比 普通 表 性 能 略 有 提升 ， 读 者 在 生产 系统 中 使 用 
分 区 表 时 需 考虑 分 区 后 的 SQL 性 能 变化 。 




















第 9 章 ”PostgreSQL 的 NoSQL 特 性 


PostgreSQL 不 只 是 一 个 关系 型 数据 库 ， 同 时 文 
寺 非 天 系 特性 ， 而 且 逐 步 增 强 对 非 关 系 特性 的 文 
持 ， 第 3 章 数据 类 型 章节 中 介绍 了 PostgreSQL 的 json 
和 jsonb 数 据 类 型 ， 本 章 将 进一步 介绍 json、jsonb 特 
性 ， 内 容 包括 : 为 jsonb 类 型 创建 案 引 、json 和 和 jsonb 
读 写 性 能 测试 、 全 文 检索 对 json 和 jsonb 数 据 类 型 的 
文 持 。 








9.1 为 jsonb 类 型 创建 索引 


这 一 节 介 绍 为 jsonb 数 据 类 型 创建 索引 ，jsonb 
数据 类 型 支持 GIN 有 索引 ， 为 了 便于 说 明 ， 假 如 一 个 
json 字 上 段 内 容 如 下 所 示 ， 并 且 以 jsonb 格 式 存储 : 


{ 

“id 1, 

"user_id": 1440933, 

"UsSer_name": "1 francs", 

"create time": "2017-08-03 16:22:05.528432+08" 
} 


假如 存储 以 上 jsonb 数 据 的 字段 名 为 user_info， 
表 名 为 tbl_user_jsonb， 在 user_info 字 段 上 创建 GIN 
索引 的 语法 如 下 所 示 : 


CREATE INDEX idx_gin ON tbl user_jsonb USING gin(user_info); 


jsonb 上 的 GIN 索 引 支 持 “@>”? ”“? &”? ]” 操 
作 符 ， 例 如 以 下 查询 将 会 使 用 索引 : 





SELECT * FROM tbl user_jsonb WHERE user_info @> '{"user_name": 


但 是 以 下 基于 jsonb 键 值 的 查询 不 会 走 索 引 


idx_gin . 


SELECT * FROM tbl user_jsonb WHERE user_info->>'user_name'= '1 


如 果 要 想 提 升 基于 jsonb 类 型 的 键 值 检索 效率 ， 
可 以 在 jsonb 数 据 类 型 对 应 的 键 值 上 创建 索引 ， 如 下 
所 示 : 


CREATE INDEX idx_gin_ user_infob_ user_name ON tbl_user_jsonb US 
((user_info ->> "User_name ' )); 





创建 以 上 索引 后 ， 上 述 根据 user_info- 
>>'user_name' 键 值 查询 的 SQL 将 会 走 索 引 。 


9.2 json、jsonb 读 写 性 能 测试 


上 一 市 介绍 了 jsonb 数 据 类 型 案 引 创建 的 相关 内 
容 ， 本 节 将 对 json、jsonb 读 写 性 能 进行 简单 对 比 ， 
在 第 3 章 数据 类 型 章节 中 介绍 json、jsonb 数 据 类 型 
时 提 到 了 两 者 读 写 性 能 的 差异 ， 主 要 表现 为 json 写 
入 时 比 jsonb 快 ， 但 检索 时 比 jsonb 慢 ， 主 要 原因 
为 : json 存 储 格式 为 文本 而 jsonb 存 储 格式 为 二 进 
制 ， 存 储 格式 的 不 同 使 得 两 种 json 数 据 类 型 的 处 理 
效率 不 一 样 。json 类 型 存储 的 内 容 和 输入 数据 一 
样 ， 当 检索 json 数 据 时 必须 重新 解析 : 而 jsonb 以 二 
进 制 形式 存储 已 解析 好 的 数据 ， 当 检索 jsonb 数 据 时 
不 需要 重新 解析 。 





9.2.1 创建 json、jsonb 测 试 表 


下 面 通过 一 个 简单 的 例子 测试 json、jsonb 的 读 
写 性 能 差异 ， 计 划 创 建 以 下 三 张 表 : 


.uset_ini: 基础 数据 表 ， 并 插入 200 万 测试 数 
据 ; 





.tbl_useft_json: json 数 据 类 型 表 ，200 万 数 
据 ; 


. tbl_user_jsonb: jsonb 数 据 类 型 表 ，200 万 数 
据 ; 


首先 创建 user_ini 表 并 插入 200 万 测试 数据 ， 如 
下 所 示 : 





mydb=> CREATE TABLE user_ini(id int4 ,user_id int8, user_name 
varying(64),create time timestamp(6) with time zone default 
clock_timestamp( )); 

CREATE TABLE 


mydb=> INSERT INTO user_ini(id,user_id,user_nanme) 
SELECT r,round(random( )*2000000), r || '_francs' 
FROM generate_ series(1,2000000) as r; 

INSERT © 2000000 





计划 使 用 user_ini 表 数据 生成 json、jsonb 数 据 ， 
创建 user_ini json、user_ini jsonb 表 ， 如 下 所 示 : 





mydb=> CREATE TABLE tbl_ user_json(id serial, user_info json); 
CREATE TABLE 

mydb=> CREATE TABLE tbl_ user_jsonb(id serial, user_info jsonb) 
CREATE TABLE 





9.2.2 json、jsonb 表 写 性 能 测试 


根据 user_ini 数 据 通 过 row_to_json 函 数 向 表 
user_ini json 插 入 200 万 json 数 据 ， 如 下 所 示 : 





mydb=> \timing 
Timing is on. 


mydb=> INSERT INTO tbl user_ json(user_info) SELECT row_to_ json 
FROM User_ini,; 

INSERT © 2000000 

Time: 13825.974 ms (00:13.826) 





从 以 上 结果 可 以 看 出 tbl]_user_ json 插入 200 万 数 
据 花 了 13 秒 左右 ; 接着 根据 user_ini 表 数据 生成 200 
万 jsonb 数 据 并 插入 表 tbl_user_jsonb， 如 下 所 示 : 





mydb=> INSERT INTO tbl_ user_jsonb(user_info) 
SELECT row_ to_json(user_ini)::jsonb FROM user_ini; 
INSERT © 2000000 
Time: 20756.993 ms (00:20.757) 





从 以 上 结果 可 以 看 出 tbl]_user jsonb 表 插入 200 
万 jsonb 数 据 花 了 20 秒 左右 ， 正 好 验证 了 了 json 数据 写 
入 比 jsonb 快 。 比 较 两 表 占 用 空间 大 小 ， 如 下 所 示 : 








mydb=> \dt+ tbl user_]json 
List of relations 


Schema | Name | Type | Owner | Size | Descriptio 
0 ES Re TN WE eT ES SE TR 
pguser | tbl user json | table | pguser | 281 MB | 

(1 row) 


mydb=> \dt+ tbl user_jsonb 

List of relations 
Schema | Name | Type | Owner | Size | Descripti 
ye Ee 
pguser | tbl user_jsonb | table | pguser | 333 MB | 
(1 row) 





从 占用 空间 来 看 ， 同 样 的 数据 量 jsonb 数 据 类 型 
占用 空间 比 json 稍 大 。 


查询 tbl-user-json 表 的 一 条 测试 数据 ， 如 下 所 


一 < 


外: 





mydb=> SELECT * FROM tbl user_ json LIMIT 1; 
Id | U 
I EE I EE EE 攻 二 让 
2000001 | {"id":1,"user_id":1182883, "User_name":"1 francs" 
(1 row) 





9.2.3 json、jsonb 表 读 性 能 测试 


对 于 json、jsonb 放 性 能 测试 我 们 选择 基于 
json、jsonb 键 值 租 询 的 场景 ， 例 如 ， 根 据 user_info 
字段 的 user_name 刍 的 值 查询 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM tbl user_ jsonb WHERE user 
QUERY PLAN 
Seq Scan on tbl user_jsonb (cost=0.00..72859.90 rows=10042 
Filter: ((user_info ->> 'user_name'::text) = '1 francs 
Rows Removed by Filter: 1999999 
Planning time: 0.091 ms 
Execution time: 524.876 ms 
(5 rows) 








上 述 SQL 执 行 时 间 为 524 宫 秒 左 右 。 基 于 


user_info 字 段 的 user_name 键 值 创 建 btree 索 引 ， 如 下 
所 示 : 





mydb=> CREATE INDEX idx_jsonb ON tbl user_jsonb USING btree 
((user_info->>'user_name' )); 





再 次 执行 上 述 得 询 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM tb]l_user_jsonb WHERE user 
QUERY PLAN 
Bitmap Heap Scan on tbl user_ jsonb (cost=155 .93. .14113 ,93 
Recheck Cond: ((user_info ->> 'user_name'::text) = '1 
Heap Blocks: exact=1 
-> Bitmap Index Scan on idx jsonb (cost=0.00..153.43 
Index Cond: ((user_info ->> 'user_name'::text) = " 
Planning time: 0.091 ms 
Execution time: 0.060 ms 
(7 rows) 





根据 上 述 执行 计划 可 以 看 出 走 了 索引 ， 并 且 
SQL 时 间 下 降 到 0.060ms。 为 了 更 好 地 对 比 
tb]_user_json、tbl_user_jsonb 表 基于 键 值 得 询 的 效 
率 ， 我 们 根据 user_info 字 段 id 键 进行 范围 扫描 以 对 
比 性 能 ， 首 先 创建 索引 ， 如 下 上 所 示 : 





mydb=> CREATE INDEX idx_gin_user_info_id ON tbl user_json USIN 
(((user_info ->> 'id')::integer)); 
CREATE INDEX 





mydb=> CREATE INDEX idx_gin_user_infob_id ON tbl] user_jsonb US 





(((user_info ->> 'id')::integer)); 
CREATE INDEX 





索引 创建 后 ， 查 询 tbl_user_ json 表 ， 如 下 所 


i 


和 修 : 





mydb=> EXPLAIN ANALYZE SELECT id,user_info->'id',user_info->'uU 
FROM tbl_ user_json 
WHERE (usSer_info->>'id')::int4>1 AND (user_info->>'id'):: 
QUERY PLAN 
Bitmap Heap Scan on tbl user_ json (cost=166.30..14178.17 
Recheck Cond: ((((user_info ->> 'id'::text))::integer 
Heap Blocks: exact=338 
-> Bitmap Index Scan on idx_gin user_info_ id (cost=C 
Index Cond: ((((user_info ->> 'id'::text))::intege 
Planning time: 0.094 ms 
Execution time: 27.092 ms 
(7 rows) 








根据 以 上 结果 可 以 看 出 ， 僵 询 表 tb]_user_json 
的 user_info 字 段 id 键 值 在 1 到 10000 范 围 内 的 记录 走 
了 有 索引， 并 且 执 行 时 间 为 27.092 坚 秒 ， 接 痢 测 试 对 
tb]_user jsonb 表 执行 同样 SQL 的 检索 性 能 ， 如 下 上 所 
修 : 








mydb=> EXPLAIN ANALYZE SELECT id,user_info->'id',user_info->'Uu 
FROM tbl user_jsonb 
WHERE (user_info->>'id')::int4>1 AND (user_info->>'id')::int4< 
QUERY PLAN 
Bitmap Heap Scan on tbl user_jsonb (cost=158.93..14316.93 
Recheck Cond: ((((user_info ->> 'id'::text))::integer 
Heap Blocks: exact=393 


-> Bitmap Index Scan on idx_gin user_infob_id (cost= 
Index Cond: ((((user_info ->> 'id'::text))::intege 
Planning time: 0.104 ms 
Execution time: 8.656 ms 
(7 rows) 








根据 以 上 结果 可 以 看 出 ， 查 询 表 tbl_user_jsonb 
的 user_info 字 段 idq 键 值 在 1 到 10000 范 围 内 的 记录 走 
了 索引 并 且 执 行 时 间 为 8.656 写 秒 ， 从 这 个 测试 看 出 
jsonb 检 索 比 json 效 率 高 。 


从 以 上 两 个 测试 看 出 ， 正 好 验证 了 “json 写 入 比 
jsonb 快 ， 但 检索 时 比 jsonb 慢 ”的 观点 ， 值 得 一 提 的 
是 如 果 需 要 通过 key/value 进 行 检索 ， 例 如 : 














SELECT * FROM tbl user_jsonb WHERE user_info @> '{"user_name": 





这 时 执行 计划 为 全 表 扫 描 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM tbl user_ jsonb WHERE user 
QUERY PLAN 
Seq Scan on tbl user jsonb (cost=0.00.,.67733.00 rows=200C 
Filter: (user_info @> '{"user_name": "2 francs"}'::]jsc 
Rows Removed by Filter: 1999999 
Planning time: 0.065 ms 
Execution time: 582.232 ms 
(5 rows) 





从 以 上 结果 可 以 看 出 执行 时 间 为 582 坚 秒 左 


右 。 在 tbl_user_jsonb 字 上 段 user_info 上 创建 gin 索 引 ， 
如 下 所 示 ， 





mydb=> CREATE INDEX idx_tbl user_jsonb_user_Info ON tbl user j 
(user_Info); 
CREATE INDEX 








索引 创建 后 ， 再 次 执行 查询， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM tbl user_jsonb WHERE user 
QUERY PLAN 
Bitmap Heap Scan on tbl user_ jsonb (cost=37.50..3554.34 r 
Recheck Cond: (user_info @> '{"user_name": "2_francs"} 
Heap Blocks: exact=1 
-> Bitmap Index Scan on idx_ tbl user_jsonb_user_info 
Index Cond: (user_info @> '{"user_name": "2 _ francs 
Planning time: 0.094 ms 
Execution time: 0.114 ms 
(7 rows) 








从 以 上 看 出 走 了 索引 ， 并 且 执 行 时 间 下 降 到 了 
0.114 上 毫秒 。 


这 一 节 测 试 了 json、jsonb 数 据 类 型 读 写 性 能 3 
异 ， 验 证 了 json 写 入 时 比 jsonb 快 ， 但 检索 时 比 jsonb 
慢 的 观点 。 





9.3 全文 检索 对 json 和 jsonb 数 据 类 型 的 支 


持 


前 两 小 节 介 绍 了 jsonb 索 引 创 建 以 及 json、jsonb 
读 写 性 能 的 差异 ， 这 一 小 节 将 介绍 PostgreSQL10 的 
一 个 新 特性 : 全 文 检 索 对 json、jsonb 数 据 类 型 的 支 
持 ， 本 小 节 分 两 部 分 ， 第 一 部 分 简单 介绍 
PostgreSQL 全 文 检索 ， 第 二 部 分 演示 全 文 检 索 对 
json、jsonb 数 据 类 型 的 文 持 。 








9.3.1 ” ”PostgreSQL 全 文 检索 简介 





对 于 大 多 数 应 用 来 说 全 文 检 索 很 少 在 数据 库 中 
实现 ， 一 般 使 用 单独 的 全 文 检索 引擎 ， 例 如 基于 
SQL 的 全 文 检索 引擎 Sphinx。PostgreSQL 文 持 全 文 
检索 ， 对 于 规模 不 大 的 应 用 如 果 不 想 搭建 专门 的 搜 
索引 擎 ，PostgreSQL 的 全 文 检 索 也 可 以 满足 需求 。 


如 条 没有 使 用 专门 的 搜索 引擎 ， 大 部 检索 需要 
通过 数据 库 like 操 作 匹 配 ， 这 种 检索 方式 的 主要 缺 
凡人 在 于 : 


` 不 能 很 好 地 支持 索引 ， 通 常 需 全 表 扫 描 检 索 
数据 ， 数 据 量 大 时 检索 性 能 很 低 。 





: 不 提供 检索 结果 排序 ， 当 输出 结果 数据 量 非 
常 大 时 表现 更 加 明显 。 


postgreSQL 全 文 检索 能 有 效 地 解决 这 个 问题 ， 
PostgreSQL 全 文 检索 通过 以 下 两 种 数据 类 型 来 实 
现 。 


1.tsvector 


tsvector 全 文 检索 数据 类 型 代表 一 个 被 优化 的 可 
以 基于 搜索 的 文档 ， 要 将 一 串 字 符 串 转换 成 tsvector 
全 文 检 过 数据 类 型 ， 代 码 如 下 所 示 : 








mydb=> SELECT 'Hello,cat,how are u? cat is smiling! '::tsvecto 
tsvector 
'Hello,cat,how' 'are' 'cat' 'is' 'smiling!' 'u?' 
(1 row) 


可 以 看 到 ， 字 符 串 的 内 容 被 分 隔 成 好 几 段 ， 但 
通过 : : tsvector 只 是 做 类 型 转换 ,没有 进行 数据 标 
准 化 处 理 ， 对 于 英文 全 文 检索 可 通过 函数 
to_tsvector 进 行 数 据 标准 化 ， 如 下 所 示 : 


mydb=> SELECT to_tsvector('english', 'Hello cat, '); 
to_tsvector 
'cat':2 'hello':1 

(1 row) 


2.tsquery 


tsquery 表 示 一 个 文本 查询 ， 存 储 用 于 搜索 的 
词 ， 并 旦 支 持 布 尔 操作 “&”、“|*、“! ”将 字符 串 转 
换 成 tsquery， 如 下 所 示 : 








mydb=> SELECT ‘hello&cat'::tsquery; 
tsquery 


'hello' & 'cat' 
(1 row) 


上 述 只 是 转换 成 tsquery 类 型 ， 而 并 没有 做 标准 
化 ， 使 用 to_tsquery 函 数 可 以 执行 标准 化 ， 如 下 所 
个 \: 


mydb=> SELECT to_tsquery( 'hellog&cat' ); 
to_tsquery 
'hello' & 'cat' 
(1 row) 





一 个 全 文 检索 示例 如 下 所 示 ， 用 于 检索 字符 串 
是 否 包 括 “hello” 和 “cat” 字 符 ， 本 例 中 返回 真 。 





mydb=> SELECT to_tsvector('english', 'Hello cat,how are u') @@ 
to_tsquery( 'hellog&cat' ); 
?column? 











检索 字符 串 是 否 包 含 字符 “hello* 和 “dog”， 本 
例 中 返回 假 ， 代 人 码 如 下 所 示 。 


mydb=> SELECT to_tsvector('english', 'Hello cat,how are u') QQ 
to_tsquery( 'hello&dog' ); 
?column? 


有 兴趣 的 读者 可 以 测试 tsquery 的 其 他 操作 符 ， 
例如 “2 I = 


动 注意 ”这 里 使 用 了 带 双 参数 的 to_tsvector 
胡 数 ， 朋 数 to_tsvectot 双 参数 的 格式 如 下 所 示 : 
to_tsvectof ([config regconfig, Jdocument text) ， 本 
节 to _tSVector 通 数 指定 了 config 参 数 为 english， 如 果 
不 指定 config 参 数 ， 则 默认 使 用 
default_text_seatch_config 参 数 的 配置 。 


3. 英 文 全 文 检 索 例 子 


下 面 演 示 一 个 身 文 全 文 检索 示例 ， 创 建 一 张 测 
试 表 并 插入 200 万 测试 数据 ， 如 下 所 示 : 


mydb=> CREATE TABLE test_ search(id int4,name text ) ， 

CREATE TABLE 

mydb=> INSERT INTO test_search(id,name) SELECT Nn, n||'_francs' 
FROM generate_ series(1,2000000) n; 

INSERT © 2000000 





执行 以 下 SQL， 查 询 test_search 表 name 字 上 段 包 
含 字 符 1_francs 的 记录 。 





mydb=> SELECT * FROM test_ search WHERE name LIKE '1 francs'; 


id | name 
ee es i 
1 | 1 francs 
(1 row) 





执行 计划 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM test_ search WHERE name LI 
QUERY PLAN 
Seq Scan on test search (cost=0.00..38465.04 rows=204 wid 
Filter: (name ~~ '1 francs'::text) 
Rows Removed by Filter: 1999999 
Planning time: 0.101 ms 
Execution time: 261.796 ms 
(5 rows) 





以 上 执行 计划 进行 了 全 表 扫 摘 ， 执 行 时 间 为 
261 坚 秒 左 石 ， 性 能 很 低 ， 接 看 创建 索引 ， 如 下 所 
修 \: 








mydb=> CREATE INDEX Idx_gin_search ON test_search USING gin 
(to_tsvector('english',nanme)); 
CREATE INDEX 





执行 以 下 SQL， 碍 询 test_search 表 name 字 段 包 
含 字 符 1 francs 的 记录 。 





mydb=> SELECT * FROM test_ search WHERE to_tsvector('english',n 
to_tsquery('english','1 francs'); 


id | name 
人 十 ---------- 

1 | 1 francs 
(1 row) 





再 次 查看 执行 计划 和 执行 时 间 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM test_search WHERE to_tsve 
to_tsquery('english','1 francs' ) ， 
QUERY PLAN 
Bitmap Heap Scan on test_Ssearch (cost=18.39..128.38 rows= 
Recheck Cond: (to_ tsvector('english'::regconfig, name) 
Heap Blocks: exact=1 
-> Bitmap Index Scan on idx_gin_search (cost=0.00..1 
Index Cond: (to_ tsvector('english'::regconfig, nan 
Planning time: 0.122 ms 
Execution time: 0.104 ms 
(7 rows) 





创建 索引 后 ， 以 上 查询 走 了 索引 并 且 执 行 时 间 
下 降 到 0.104 毫 秒 ， 性 能 提升 了 3 个 数量 级 ， 值 得 一 
提 的 是 如 果 将 SQL 修改 为 不 走 索引 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM test_search 
WHERE to_tsvector(name) @@ to_tsquery('1 francs ' ) 
QUERY PLAN 


Seq Scan on test_search (cost=0.00..1037730.00 rows=50 wi 
Filter: (to_tSsvector(name) QQ to_tsduery( '1 francs'::t 
Rows Removed by Filter: 1999999 
Planning time: 0.098 ms 
Execution time: 10297.787 ms 
(5 rows) 


由 于 创建 索引 时 使 用 的 是 
to_tsvector ('english'"，name) 子 数 索引 ， 带 了 两 个 
参数 ， 因 此 where 条 件 中 的 to_tsvector 国 数 带 两 个 参 
数 才 能 走 索 引 ， 而 to_tsvector (name) 不 走 索 引 。 


9.3.2” json、jsonb 全 文 检索 实践 


在 PostgreSQL10 版 本 之 前 全 文 检索 不 文 持 json 
和 和 jsonb 数 据 类 型 ，10 版 本 的 一 个 重要 特性 是 全 文 检 
索 文 持 json 和 jsonb 数 据 类 型 ， 这 一 小 厄 将 演示 10 版 
本 的 这 个 新 特性 。 


1.PostgreSQL10 版 本 与 9.6 厂 本 to_tsvector 函 数 的 天 


全 





先 来 看 看 9.6 版 本 的 to_tsvector 国 数 ， 如 下 所 


一 


修 : 


[postgres@pghost1 ~]$ psql francs francs 
psql (9.6.3) 
Type "help" for help. 


mydb=> \df *to_tsvector* 
List of functions 


Schema | Name | Result data type | Argument 
ED sD 
pg_catalog | array_to tsvector | tsvector | text[] 
pg_catalog | to_tsvector | tsvector | regconfig 
pg_catalog | to_tsvector | tsvector | text 


(3 rows) 





从 以 上 看 出 9.6 版 本 to_tsvector 函 数 的 输入 参数 
仪 支持 text、text[] 数 据 类 型 ， 接 着 看 看 10 版 本 的 
to_tsvector 国 数 ， 如 下 上 所 示 : 








[postgres@pghost1 ~]$ psql mydb pguser 
psql (10.0) 
Type "help" for help. 
mydb=> \df *to tsvector* 
List of functions 


Schema | Name | Result data type | Argument 
i eS 
pg_catalog | array_to tsvector | tsvector | text[] 
pg_catalog | to _tsvector | tsvector | json 
pg_catalog | to _tsvector | tsvector | jsonb 
pg_catalog | to_tsvector | tsvector | regconfig 
pg_catalog | to_tsvector | tsvector | regconfig 
pg_catalog | to_tsvector | tsvector | regconfig 
pg_catalog | to_tsvector | tsvector | text 
(7 rows) 





从 以 上 看 出 ，10 版 本 的 to_tsvector 了 水 数 支 持 的 


数据 类 型 增加 了 json 和 jsonb。 


2. 创 建 数据 生成 函数 


为 了 便于 生成 测试 数据 ， 创 建 以 下 两 个 函数 用 
来 随机 生成 指定 长 度 的 字符 串 ， 
random_range (int4，int4) 函数 的 代码 如 下 所 示 : 








CREATE OR REPLACE FUNCTION random_ range(int4, int4) 
RETURNS int4 
LANGUAGE SQL 
AS $$ 

SELECT ($1 + FLOOR(($2 - $1 + 1) * random() ))::int4; 
$$ ， 





接着 创建 random_text_simple (length int4) 机 
数 ， 此 函数 会 调用 random range (int4，int4) 也 
数 ， 其 代码 如 下 所 示 : 





CREATE OR REPLACE FUNCTION random text_simple(length int4) 
RETURNS text 
LANGUAGE PLPGSQL 
AS $$ 
DECLARE 
possible_ chars text := '0123456789ABCDEFGHIJKLMNOPQRSTUVWX 
output text := "''; 
i int4; 
pos int4; 
BEGIN 


FOR i IN 1..1length LOOP 


pos := random_range(1, length(possible_ chars)); 
output := output || substr(possible chars, pos, 1); 
END LOOP; 


RETURN output; 
END; 


$$; 


random_text_simple (length int4) 函数 可 以 随 
机 生成 指定 长 度 字符 串 ， 下 列 代码 随机 生成 售 三 位 
字符 的 字符 串 : 





mydb=> SELECT random text_simple(3); 
random_text_simple 


LL9 
(1 row) 


随机 生成 舍 六 位 字符 的 字符 串 ， 如 下 所 示 : 


mydb=> SELECT random text_simple(6); 
random_text_simple 


B81BPW 
(1 row) 


后 面 会 使 用 这 个 函数 生成 测试 数据 。 
3. 创 建 json 测 试 表 


创建 user_ini 测 试 表 ， 并 通过 
random_text_simple (length int4) 图 数 插入 100 万 随 
机 生成 的 六 位 字符 的 字符 串 ， 作 为 测试 数据 ， 如 下 
所 示 : 





mydb=> CREATE TABLE user_ini(id int4 ,user_id int8, 

user_name character varying(64), 

create_ time timestamp(6) with time zone default clock_ timestan 
CREATE TABLE 


mydb=> INSERT INTO user_ini(id,user_id,user_nanme) 
SELECT r,round(random( )*1000000), random text_simple(6) 
FROM generate_series(1,1000000) as r; 

INSERT © 1000000 





创建 tbl_user_search_json 表 ， 并 通过 
row_to_json 函 数 将 表 user_ini 的 行 数据 转换 成 json 数 
据 ， 如 下 所 示 : 





mydb=> CREATE TABLE tbl_ user_search json(id serial, user_info 
CREATE TABLE 


mydb=> INSERT INTO tbl user_search_ json(user_info) 
SELECT row_ to_json(user_ini) FROM user_ini; 
INSERT © 1000000 





所 生成 的 数据 如 下 所 示 : 





mydb=> SELECT * FROM tbl user_search json LIMIT 1; 
id | user_in 
Ss es 
1 | {"id":1,"user_id":186536,"Uuser_name":"KTU89H", "cre 
(1 row) 





4.json 数 据 全 文 检 索 测试 


使 用 全 文 检索 查询 表 tbl_user_search_json 的 
User_info 字 段 中 包含 KTU89H 字 符 的 记录 ， 如 下 所 
人 和 仆 : 








mydb=> SELECT * FROM tbl user_search_json 
WHERE to_tsvector('english',user_info) @@ to_tsquery( ENGLISH ' 
Id | USer_ in 
ee EE YY EE EY YT A 
1 | {"id":1,"user_id":;186536,"Uuser_ name":"KTU89H", "cre 
(1 row) 





以 上 SQL 能 正常 执行 说 明 全 文 检索 支持 json 数 
据 类 型 ， 只 是 上 述 SQL 进 行 了 全 表 扫 描 ， 性 能 较 
低 ， 执 行 时 间 为 8061 毫 秒 ， 如 下 所 示 : 





mydb=> EXPLAIN ANALYZE SELECT * FROM tb]_user_search_json 
WHERE to_tsvector('english',user_info) @@ to _ tsquery(， 
QUERY PLAN 
Seq Scan on tbl user_ search json (cost=0.00, ,279513 .00 rc 
Filter: (to tsvector('english'::regconfig, user_info) 
Rows Removed by Filter: 999999 
Planning time: 0.091 ms 
Execution time: 8061.880 ms 
(5 rows) 





创建 如 下 索引 : 





mydb=> CREATE INDEX idx_gin_ search_ json ON tbl user_search_ js 
gin(to_tsvector('english',user_info)); 
CREATE INDEX 





索引 创建 后 ， 再 次 执行 以 人 人 SQL， 如 下 所 不: 





mydb=> EXPLAIN ANALYZE SELECT * FROM tb]l_user_search_json WHEF 
QUERY PLAN 
Bitmap Heap Scan on tbl user_search json (cost=50.75..787 
Recheck Cond: (to_tsvector('english'::regconfig, user_ 
Heap Blocks: exact=1 
-> Bitmap Index Scan on idx_gin_search _ json (cost=0. 
Index Cond: (to_ tsvector('english'::regconfig, use 
tsquery) 
Planning time: 0.113 ms 
Execution time: 0.057 ms 
(7 rows) 








从 上 述 执 行 计划 看 出 走 了 索引 ， 并 且 执 行 时 间 
降 为 0.057 坚 秒 ， 性 能 非常 不 错 。 


这 一 小 节 前 一 部 分 对 PostgreSQL 全 文 检索 的 实 
现 做 了 简单 介绍 ， 并 且 给 出 了 一 个 正文 检索 的 例 
子 ， 后 一 部 分 通过 示例 介绍 了 PostgreSQL10 的 一 个 
新 特性 ， 即 全 文 检索 对 json、jsonb 类 型 的 文 持 。 





9.4 ”本章 小 结 


本 章 进 一 步 介 绍 了 PostgreSQL 的 NoSQL 特 性 ， 
首先 介绍 了 jsonb 数 据 类 型 索引 相关 的 内 容 ， 之 后 通 
过 示例 对 比 json、jsonb 两 种 json 数 据 类 型 读 写 性 能 
的 差异 ， 最 后 介绍 了 PostgreSQL 全 文 检索 以 及 全 文 
检索 对 json、jsonb 类 型 的 文 持 〈PostgreSQL10 新 特 
性 ) ， 通 过 阅读 本 节 读 者 对 json、jsonb 的 使 用 有 了 
进一步 理解 。 本 章 给 出 了 PostgreSQL 严 文 全 文 检索 
的 示例 ， 值 得 一 提 的 是 ，PostgreSQL 对 中 文 检索 也 
是 文 持 的 ， 有 兴趣 的 读者 可 目 行 测 试 。 





进 险 扁 


竹 能 优化 


~ 


基准 测试 与 pgbench 
物理 复制 和 逻辑 复制 
备份 与 恢复 

高 可 用 

版 本 升级 

扩展 模块 


Oracle 数 据 库 迁移 PostereSQL 实 践 


PostGIS 


第 10 草 ”性 能 优化 


为 用 户 提供 高 性 能 的 服务 ， 是 优秀 的 系统 应 议 
实现 的 目标 ， 数 据 库 的 性 能 表现 往往 起 到 关键 作 
用 。 在 便 件 层面 ， 影 响 数 据 库 性 能 的 主要 因素 有 
CPU、LIO、 内 存 和 网 络 ; 在 软件 层面 则 要 复杂 得 
多 ， 操 作 系 统 配置 、 中 间 件 配置 、 数 据 库 参数 配 
置 、 运 行 在 数据 库 之 上 的 但 询 和 命令 等 ， 都 对 性 能 
有 或 多 或 少 的 影响 。 同 时 ， 随 着 业务 增长 、 数 气量 
的 变化 ， 应 用 复杂 度 变 更 等 种 种 因 系 的 影响 ， 数 据 
库 系 统 过 到 瓶 贷 ， 运 行 在 不 健康 状态 的 情况 非常 多 
见 。 本 章 将 介绍 一 些 关 键 的 性 能 指标 、 判 断 性 能 瓶 
令 的 方法 ， 介 绍 碍 询 计划 的 基础 知识 ， 以 及 一 些 名 
见 的 性 能 检测 和 系统 监控 工具 ， 以 及 常见 的 性 能 瓶 
人 祷 的 解雇 思路 ， 并 着 重 介 绍 PostgreSQL 丰 宇 的 索引 
类 型 和 各 种 索引 的 使 用 场景 ， 通 过 性 能 优化 充分 利 
用 硬件 资源 ， 构 建 高 效 的 SQL 服务 器 应 用 。 


规模 和 大 的 应 用 系统 ， 通 党 由 大 干 子 系统 组 
成 ， 例 如 一 个 应 用 由 硬件、 操作 系统 、PostgreSQL 
数据 库 系 统 、 业 务 系统 组 成 ， 这 些 子 系统 一 起 工 
作 ， 并 且 频 老区 互 ， 相 互 影 响 。 在 进行 系统 性 能 优 
化 时 ， 应 当先 看 眼 全 局 进行 分 析 ， 再 逐步 深入 到 细 
节 。PostgreSQL 数 据 库 的 SQL 服务 顺应 用 通 第 分 为 
OLTP 和 数据 仓库 ， 在 当前 日 益 复 杂 的 数据 应 用 环 



































境 中 ， 这 两 种 类 型 混合 使 用 的 情况 越 来 越 多 ， 这 也 
对 数据 库 系 统 和 数据 库 层 面 的 优化 提出 了 更 高 的 要 
求 。 对 于 不 同 的 应 用 类 型 ， 可 能 遇 到 的 瓶颈 也 会 不 
同 ， 优 化 方法 也 大 相 径 庭 ， 以 下 就 从 服务 器 硬件 、 
操作 系统 、 数 据 库 全 局 参数 、 查 询 性 能 这 几 个 方面 
分 别 展开 讨论 。 


10.1 服务 右 便 件 


影响 数据 库 性 能 的 主要 硬件 因素 有 CPU、 磁 
栓 、 内 存 和 网 络 。 


最 先 到 达 瓶 颁 的 ， 通 第 是 磁盘 的 /O。 在 投入 
生产 之 前 应 该 对 人 磁盘 的 容量 和 吞吐 量 进行 估算 ， 磁 
盘 容 量 预 估 相 对 简单 ， 但 知 叶 量 受 各 种 因素 变化 的 
影响 ， 预 估 常 常 不 够 准确 ， 所 以 要 做 好 扩展 的 准 
备 。 回 态 存 储 现 在 已经 非常 成 熟 ， 而 且 价 格 已 经 比 
较 便 宜 ， 目 前 在 生产 环境 使 用 固态 磁盘 已 经 非 彰 普 
遍 ， 如 目前 使 用 广泛 的 SATA SSD 和 PCIe SSD。 与 
传统 破 盘 相 比 ，SSD 有 更 好 的 随机 读 写 性 能 ， 能 够 
更 好 地 支持 并 发 ， 实 现 更 大 吞吐 量 ， 是 现在 数据 库 
服务 器 首选 的 存储 介质 。 但 应 该 注意 的 是 需要 区 分 
消费 级 SSD 和 企业 级 SSD， 如 果 在 读 写 密集 的 生产 
环境 使 用 廉价 的 消费 级 SSD， 不 用 多 久 ， 消 费 级 
SSD 束 会 寿 终 正 赣 。 使 用 外 部 存储 设备 加 载 到 服务 
器 也 是 比较 常见 的 ， 例 如 SAN (存储 区 域 网 络 ) 和 
NAS〔 网 络 接 入 存储 ) 。 使 用 SAN 设 备 时 通过 块 接 
口 访问 ， 对 服务 器 来 说 惑 像 访问 本 地 厂 盘 一 样 ; 
NAS 则 是 使 用 标准 文件 协议 进行 访问 ， 例 如 NFS 
0 
间 的 影响 。 























CPU 也 会 经 常 成 为 性 能 短 贷 ， 数 据 库 服务 器 执 
行 的 每 一 个 查询 都 会 给 CPU 施 加 一 定 压力 。 更 高 的 
CPU 主 频 可 以 提供 更 快 的 运算 速度 ， 更 多 的 核心 数 
则 能 大 大 提高 并 发 能 力 ， 充 分 利用 PostgreSQL 并 发 
查询 的 能 力 。 需 要 注意 的 是 : 有 一 些 服务 器 在 BIOS 
中 可 以 设置 CPU 的 性 能 模式 ， 可 能 的 模式 有 高 性 能 
模式 、 普 通 模式 和 节能 模式 ， 在 数据 库 服务 器 中 ， 
不 建议 使 用 节能 模式 。 这 种 模式 会 在 系统 比较 空 闪 
的 时 候 对 CPU 主 动 降 频 ， 达 到 降温 和 节 电 的 目的 ， 
但 对 于 数据 库 来 说 ， 则 会 产生 性 能 波动 ， 这 是 用 户 
不 希望 看 到 的 ， 所 以 硬件 上 架 前 束 禁 用 节能 模式 ， 
不 同 的 设备 请 参考 厂家 提供 的 手册 进行 调整 。 


内 存 的 使 用 对 数据 库 系 统 非 常 重要 。 操 作 系统 
层 、 数 据 库 层 等 各 个 层 的 缓存 对 高 性 能 有 很 大 辅助 
作用 ， 较 大 的 内 存 可 以 明显 降低 服务 占 的 VO 压 
力 ， 绥 解 CPU 的 W/O 等 每 时 间 ， 对 数据 库 性 能 起 着 天 
键 的 影响 。 但 现在 流行 的 服务 左 ， 内 存 配置 一 般 都 
比较 充裕 ， 千 兆 和 万 兆 网 卡 也 几乎 成 为 数据 库 服 务 
名 标 配 ， 内 和 存 与 网 络 在 大 多 数 时 候 不 会 成 为 系统 短 
贷 ， 但 仍然 需要 密切 监控 容量 和 指标 趋势 ， 在 适当 
的 时 候 进 行 扩容 和 升级 。 














10.2 ”操作 系统 优化 


数据 库 是 与 操作 系统 结合 非常 紧密 的 系统 应 
用 ， 操 作 系 统 的 参数 配置 会 直接 作用 在 数据 库 服务 
人 锅 。 因 此 对 于 DBA 来 说 ， 了 解 操 作 系 统 非 常 重要 。 
下 面 我 们 介绍 一 些 常 用 的 性 能 监控 和 调整 工具 ， 并 
讨论 一 些 单 见 的 数据 库 专 有 服务 器 的 操作 系统 方面 
以 及 这 些 优 化 点 相关 参数 的 调整 原则 和 
方法 。 








10.2.1 常用 Linux 性 能 工具 





Linux 操 作 系 统 提 供 了 非常 多 的 性 能 监控 工 
具 ， 可 以 全 方位 监控 CPU、 内 存 、 虚 拟 内 存 、 磁 盘 
/JO、 网 络 等 各 项 指标 ， 为 问题 排 但 提供 了 便利 ， 
无 论 是 研发 人 员 还 是 数据 库 管 理 员 都 应 该 熟练 学 握 
这 些 工 具 和 命令 的 用 法 。 因 为 Linux 相 关 命 令 和 命 
令 的 变种 很 多 ， 本 而 简 单 介绍 一 些 音 用 的 性 能 检测 
工具 ， 例 如 top、free、vmstat、iostat、mpstat、 
sar、pidstat 等 。 除 了 top 和 free 外 ， 其 他 工具 均 位 于 
sysstat 包 中 。 


在 CentOS 中 安装 sysstat 包 的 命令 如 下 所 示 : 


[root@pghost1 ~]# yum install -y sysstat 





1.top 


top 命 令 是 最 音 用 的 性 能 分 析 工 具 ， 它 可 以 实 
时 监控 系统 状态 ， 输 出 系统 整体 资源 占用 状况 以 及 
各 个 进程 的 资源 占用 状况 。 在 top 命 令 运行 过 程 中 ， 
还 可 使 用 一 些 交 互 命令 刷新 当前 状态 。 一 次 top 命 令 
的 输出 如 下 所 示 : 








top - 12:01:03 up 93 days, 23:30, 1 user, load average: 1.08 
Tasks: 1042 total, 3 running, 1039 sleeping, © stopped, 
Cpu(s): 5.3%us, 1.6%sy, 0.0%ni, 92.5%id, 0.2%wa, 0.0%hi, 
Mem: 330604220k total, 323235920k used, 7368300k free, 248 
Swap: 67108860k total, Ok used, 67108860k free, 2950534 
PID USER PR NI VIRT RES SHR S %CPU %MEM TI 
145138 postgres 20 0 37.7g 31g 31g S 26.2 10.1 5:38.22 
58327 pgbounce 20 0 49368 8808 864 S 17.4 0.0 14725: 


183682 postgres 20 0 37.6g 22g 21g R 17.3 7.0 1:49.69 
182679 postgres 20 0 37.7g 23g 22g S 15.3 7.4 2:11.07 
58123 postgres 20 0 37.1g 36g 36g R 13.6 11.7 13623: 
164415 postgres 20 0 37.7g 26g 26gS 12.2 8.6 2:51.10 
10674 root 20 0 0 0 0S11.7 0.0 22882: 
164421 postgres 20 0 37.7g 29g 28g S 11.6 9.2 3:55.88 
57570 root 20 © © © 0S 6.0 0.0 6386 : 
73195 postgres 20 0 37.19g 3532 2280 S 6.0 0.0 6207 : 
58145 postgres 20 0 37.1g 36g 36g9 S 3.6 11.6 4936 : 
148192 postgres 20 0 37.7g 32g 31gS 3.4 10.3 5:57.01 
10683 root 20 © © © 0S 2.1 0.0 3233 : 
164413 postgres 20 0 37.7g 28g 27g9 S 2.1 9.0 3:31.48 
10681 root 20 © © © 0S 1.7 0.0 1579 : 
10675 root 20 © © © 0S 1.1 0.0 886:09. 
73174 postgres 20 © 184m 5816 1036 S 1.0 0.0 745:02， 

0 37.2g9 36g 36gS 0.3 11.6 812:08. 


58144 postgres 20 


top 命 令 的 输出 被 一 行 空 行 分 为 两 部 分 ， 空 行 
以 上 的 信息 为 服务 占 状 态 的 整体 统计 信息 ， 空 行 以 
下 部 分 为 各 个 进程 的 状态 信息 。 


在 本 例 中 的 统计 信息 区 域 如 下 所 示 : 








top - 12:01:03 Up 93 days, 23:30, 1 user, load average: 1.08 
Tasks: 1042 total, 3 running, 1039 sleeping, © stopped, 
Cpu(s): 5.3%us, 1.6%sy, 0.0%ni, 92.5%id, 0.2%wa, 0©.0%hi, 
Mem: 330604220k total, 323235920k used, 7368300k free, 248 
Swap: 67108860k total, Ok used, 67108860k free, 2950534 





如 果 把 这 一 部 分 输出 翻译 为 可 读 语言 ， 其 内 容 
如 下 所 示 : 





top - 当前 时 间 12:01:03 ， 系 统 已 运行 93 天 23 小 时 30 分 没有 重启 , 当前 有 1 个 讨 
1 分 钟 、5 分 钟 、15 分 钟 的 系统 负载 分 别 是 : 1.08，1.09，1.08 

任务 运行 情况 :当前 一 共有 1042 个 进程 , 3 个 正在 运行 ，1039 个 在 睡眠 , 9 个 进程 停止 

CPU :用户 CPU 占 用 5.,3%, 内 核 CPU 占 用 1.6%, 特定 优先 级 的 进程 CPU 占 用 0 .0%， 空话 

内 存 :共有 330604220k ,已 使 用 323235920k, 可 用 7368300k, buffers 使 用 了 248 

虚拟 内 存 :共有 67108860k, 已 使 用 9k， 可 用 67108860k, cache 使 用 了 29505346。 









































各 个 进程 的 状态 信息 区 域 的 输出 值 所 代表 的 含 
义 是 : 


. PID: 进程 id 


. USER: 进程 所 有 者 


- PR: 进程 优先 级 

: NI: 进程 优先 级 的 修正 值 

: VIRT: 进程 使 用 的 虚拟 内 存 总 量 
RES: 进程 使 用 的 物理 内 存 大 小 
SHR: 共享 内 存 大 小 


. S: 进程 状态 。D= 不 可 中 断 的 睡眠 状态 R= 运 
行 S= 睡 眠 I= 跟 踪 / 停 止 Z= 僵 尸 进 程 


: %CPU: 上 次 更 新 到 现在 的 CPU 时 间 占 用 百 


分 比 
. %MEM: 进程 使 用 的 物理 内 存 百 分 比 


. TIME+: 进程 使 用 的 CPU 时 间 总 计 ， 单 位 
1/100 秒 


. COMMAND: 进程 运行 的 命令 名 


top 命 令 默 认 情 况 下 以 PID、USER、PR、NI、 
VIRT、 RES、 SHR、S、%CPU、%MEM.、 
TIME+、COMMAND 从 左 到 右 的 顺序 输出 这 些 
列 ， 通 常情 况 下 这 些 列 的 信息 量 已 经 足够 丰富 。 进 








入 交互 页 面 可 以 选择 添加 删除 不 同 的 列 ， 并 可 以 对 
列 进 行 排序 。 除 了 上 述 内 容 ，top 命 令 功能 丰 军 ， 可 
以 阅读 man top 深 入 了 解 。 





2.free 


free 命 令 显示 当前 系统 的 内 存 使 用 情况 ， 如 下 
所 示 : 


[root@pghost1 ~]# free -g 


total used free shared buffers 
Mem: 315 306 9 36 © 
-/+ buffers/cache: 27 287 
Swap : 63 0 63 


Mem 这 一 行 的 输出 内 容 表示 当前 服务 器 的 内 存 
共有 315GB， 已 使 用 306GB， 可 用 9GB， 其 中 
total=used+free; 共享 内 存 为 36GB，buffers 使 用 了 
0GB 〈 这 是 由 于 输出 是 以 GB 为 单位 的 ， 实 际 本 例 中 
是 244MB ) ，cache 使 用 了 278GB; 其 中 buffers 和 
cache 都 是 由 操作 系统 为 提高 IO 性 能 而 分 配 管理 
的 ，buffers 是 将 补 写 入 到 磁盘 的 缓冲 区 的 数据 ， 
cache 是 从 磁盘 读 出 到 缓存 的 数据 。-/+buffers/cache 
这 一 行 前 一 个 值 是 used-buffers/cached 的 值 ， 是 应 用 
程序 真正 使 用 到 的 内 存 ， 在 以 上 命令 的 输出 中 是 
27GB; 后 一 个 值 表示 freet+buffers/cached 的 值 ， 表 
示 理 论 上 可 以 被 使 用 的 内 存 ， 在 上 述 命 令 的 输出 中 




















是 287GB。 最 后 一 行 是 总 的 Swap 和 可 用 有 的 Swap。 


数据 库 在 运行 期 间 ， 会 一 直 频 党 地 存 取 数据 ， 
对 于 操作 系统 而 言 也 是 矣 党 地 存 取 数据 。 经 过 一 段 
时 间 的 运行 ， 可 能 会 发 现 free 命 令 的 输出 结果 中 ， 
可 用 内 存 越 来 越 少 ， 通 第 都 是 因为 缓存 。 这 是 由 于 
Linux 为 了 提升 IO 性 能 和 减 小 磁盘 压力 ， 使 用 了 
buffer cache 和 page cache，buffer cache 针 对 磁盘 的 
写 进 行 绥 存 ， 直 接 对 磁盘 进行 操作 的 数据 会 缓存 到 
buffer cache， 而 文件 系统 中 的 数据 则 是 交 给 page 
cache 进 行 缓存 ， 即 使 数据 库 任 务 运 行 结束 ，cache 
也 不 会 被 主动 释放 。 上 所以， 是 否 使 用 到 Swap 可 以 作 
为 判断 内 存 是 否 够 用 的 一 个 简单 标准 ， 只 要 没有 使 
用 到 Swap， 束 说 明 内 存 还 够 用 ， 在 数据 库 需 要 内 存 
时 ，cache 可 以 很 快 被 回收 。 


如 果 想 把 绥 存 释放 出 来 ， 可 以 使 用 如 下 命令 : 














[root@pghost1 ~]# Sync 
[root@pghost1 ~]# echo 1 > /proc/sys/vm/drop_caches 


需要 注意 ， 在 生产 环境 释放 绥 存 的 命令 要 慎 
用 ， 避 免 引 起 性 能 波动 。 


3.vmstat 





vmstat 是 Linux 中 的 虚拟 内 存 统计 工具 ， 用 于 监 
皖 操 作 系 统 的 虚拟 内 存 、 进 程 、CPU 等 的 整体 情 
部 。vmstat 最 常规 的 用 法 是 : vmstat delay count， 即 
每 隔 delay 秒 采样 一 次 ， 共 采样 count 次 ， 如 果 省 略 





/一 一 


count， 则 一 直 按 照 delay 时 间 进 行 采 


手动 CTRL+C 停 止 为 止 。 举 例如 下 : 


[root@pghost1 ~]# vmstat 3 5 

procs ----------- memory---------- --- swap 
d free buff cache si So 
© 7598968 243376 292787104 

© 7491112 243388 292891072 

© 7434112 243408 292946016 

© 7348156 243468 293028032 

0 7289800 243480 293085504 


DDNDOPOO, 





样 ， 直 到 用 户 


bi bo in C 
© 1354 984 

© 27019 45264 455 
© 11299 32468 456 
© 19383 67697 487 
© 12467 28441 46C 


vmastat 的 输出 第 一 行 显示 了 系统 目 司 动 以 来 的 
平均 值 ， 从 第 二 行 开 始 显示 现在 正在 发 生 的 情况 ， 





每 一 列 的 含义 如 下 : 


-r:， 当前 CPU 队列 中 有 几 个 进程 在 等 待 ， 持 续 
为 1 说 明 有 进程 一 直 在 等 待 ， 超 过 核心 数 说 明 压 力 


由， 


-b: 当前 有 多 少 个 进程 进入 不 可 中 上 断 式 睡眠 状 


本 


PSN 


-swpd: 已 经 使 用 的 交换 分 区 的 大 小 ; 


-free: 当前 的 空闲 内 存 ; 


-buff: 已 经 使 用 的 buffer 的 大 小 ， 特 指 buffer 
cache (存在 用 来 描述 文件 元 数据 的 cache) ; 


-cache: 已 经 使 用 的 page cache 的 大 小 ， 特 指 文 
件 page 的 cache; 


-Si/so: 从 磁盘 交换 到 Swap 分 区 和 从 Swap 分 区 
交换 到 磁盘 的 大 小 ; 


-bi/bo: 从 役 盘 该 出 和 写 入 到 人 厂 盘 的 大 小 ， 单 
位 blocks/s; 


-mn: 每 秒 被 中 断 的 进程 数 ; 
每 秒 多 少 个 CPU 进程 在 进 进出 出 。 





-CS: 
4.10stat 


iostat 命 令 用 于 整个 系统 、 适 配 右 、tty 设 备 、 伺 
所 和 CD-ROM 的 输入 /输出 统计 信息 ， 但 最 和 津 用 的 是 
用 iostat 来 监控 磁盘 的 输入 输出 ， 和 vmstat 一 样 ， 在 
命令 的 后 面 可 以 跟 上 delay 和 count 参 数 ， 举 例如 
下 : 








[root@pghost1 ~]# iostat -dx /dev/dfa 5 5 


Linux 2.6.32-696.e16.x86_64 (pghost1) 01/25/2018 _x 


Device: rrqm/s wrqm/s r/s w/Ss rsec/s wse 

dfa 0.00 0.00 3679.66 11761.85 129603 .44 94094 ,80 
0.03 0.01 0.04 0.02 27.97 

Device: rrqm/s wrqm/s r/s w/Ss rsec/s wse 

dfa 0.00 0.00 807.60 9619 .20 33854.40 76953 .60 
0.37 0.15 0.39 0.01 14.00 

Device: rrqm/s wrqm/s r/s w/Ss rsec/s wse 

dfa 0.00 0.00 727.80 12904.40 29558 .40 103235 .20 
0.54 0.18 0.56 0.01 15.18 

Device: rrqm/s wrqm/s r/s w/Ss rsec/s wse 

dfa 0.00 0.00 1682.00 13761.20 52283.20 110089 .60 
1.07 0.15 1.18 0.01 20.76 

Device: rrqm/s wrqm/s r/s w/Ss rsec/s wse 

dfa 0.00 0.00 609.80 23131.60 24737.60 185052 .80 


0.69 ©0.24 0.70 0.01 21.62 





以 上 输出 的 每 列 的 含义 是 : 


-Irqm/s，wrqm/s: 每 秒 读 写 请 求 的 合并 数量 
(OS 会 尽量 读 取 和 写 入 临近 扇 区 ) ; 


-rT/s，W/s: 每 秒 读 写 请 求 次 数 ; 
-rsec/s，wsec/s: 每 秒 读 写 请 求 的 字 节 数 ; 
-avgrq-sz: 每 秒 请 求 的 队列 大 小 ; 
-avgqu-sz: 每 秒 请 求 的 队列 长 度 ; 


-await: 从 服务 发 起 到 返回 信息 共 花 费 的 平均 
服务 时 间 ; 


-svctm: 该 值 不 必 关 注 ; 
-%util: 破 盘 的 利用 率 。 
5.mpstat 


mpstat 返 回 CPU 的 详细 性 能 信息 ， 举 例 说 明 : 





[root@pghost1 ~]# mpstat 5 5 
Linux 2.6.32-696.e16.x86_64 (pghost1) 01/25/2018 _x 
02:54:30 PM CPU %uUsr %nice %SyS %iowait %ird %So 


02:54:35 PM all 3.88 0.00 1.16 0.33 0.00 0. 
02:54:40 PM all 4.06 0.00 0.98 ©0.14 0.00 © 
02:54:45 PM all 4.06 0.00 0.98 0.13 0.00 0 
02:54:50 PM all 4.15 0.00 1.37 0.37 0.00 0 
02:54:55 PM all 6.15 0.00 1.16 0.15 0.00 0 
Average: all 4.46 0.00 1.13 0.22 0.00 0 





在 mpstat 的 最 后 一 行 会 有 一 个 运行 期 间 的 平均 
统计 值 ， 默 认 的 mpstat 会 统计 所 有 CPU 的 信息 ， 如 
果 只 需要 观察 某 一 个 CPU， 加 上 参数 -Pn， 
守 的 core 的 索引 。 例 如 观察 CPU 0 的 统计 信息 ， 每 
秒 采 样 一 次 ， 共 采样 3 次 ， 命 令 如 下 上 所 示 : 








[root@pghost1 ~]# mpstat -P 0 5 3 

Linux 2.6.32-696.e16.x86_64 (pghost1) 01/25/2018 _X 
02:57:16 PM CPU %uUsr %nice %sys %iowait %ird %So 
02:57:21 PM 0 17.54 0.00 2.02 0.81 0.00 0. 
02:57:26 PM 0 19.07 0.00 2.43 0.61 0.00 0 
02:57:31 PM 0 18.96 0.00 3.39 1.00 0.00 0. 
Average: © 18.52 0.00 2.62 0.81 0.00 © 


ee | 


以 上 输出 的 各 列 的 含义 如 下 : 

-%usr: 用 户 花 费 的 时 间 比 例 ; 

-%nice: 特定 优先 级 进程 的 CPU 时 间 百 分 比 ; 
-%sys: 系统 花费 的 时 间 比 例 ; 

-%iowait: 1/O 等 待 ; 

-%irq: 硬 中 断 花 费 的 CPU 时 间 ; 

-%soft: 软 中 断 人 花费 的 CPU 时 间 ; 


-%steal，%guest: 这 两 个 参数 与 虚拟 机 相关 ， 
略 ; 


-%idle: 空闲 比率 。 








0.Sar 


sar 是 性 能 统计 非常 重要 的 工具 。sar 每 隔 一 段 
时 间 进 行 一 次 统计 ， 它 的 配置 在 /etc/cron.d/sysstat 
中 ， 默 认为 10 分 钟 : 


[root@pghost1 ~]# cat /etc/cron.d/sysstat 
# Run System activity accounting tool every 10 minutes 
*/10 * * * * root /usr/lib64/sa/sali 1 1 


收集 数据 时 的 统计 信息 ， 
AMPM 显 示 时 间 ， 可 以 在 执行 sar 前 强制 使 用 
LANG=C 以 使 用 24 小 时 时 间 表 示 法 显示 时 间 ; 








可 以 调整 统计 信息 的 收集 频率 ， 在 测试 过 程 中 








可 以 将 每 10 分 钟 修改 为 每 1 分 钟 用 来 提高 统计 的 实 
时 性 。 


sar 的 结束 是 基于 历史 的 ， 即 从 开机 到 最 后 一 次 


在 输出 时 默认 使 用 





sar 统 计 的 维度 很 多 ， 下 面 举 几 个 简单 的 例子 。 


(1) 汇总 CPU 状况 


汇总 CPU 状况 的 命令 如 下 所 示 : 


[root@pghost1 ~]# Sar -q 
12:00:01 AM runq-sz plist-sz 


12:10:01 AM 9 1306 
12:20:01 AM 4 1307 
10:20:01 AM 9 1297 
10:30:01 AM 7 1300 

1298 


10:40:01 AM 8 


以 上 输出 的 含义 为 : 





ldavg-1 ldavg-5 ldavg-15 


1.17 1.17 1.19 
1.21 1.19 1.19 
1.02 1.09 1.13 
0.95 0.89 0.99 
1.48 1.27 1.10 





-rung-sz: 运行 队列 平均 长 度 ; 

-plist-sz: 进程 列 数 ; 

-ldavg-1，ldavg-5，ldavg-15: 每 分 、 每 5 分 

钟 、 每 15 分 钟 的 平均 负载 。 
(2) 汇总 IO 状况 

汇总 IO 状况 的 命令 如 下 所 示 : 
[root@pghost1 ~]# Sar - 
12:00:01 AM tps rtps wtps bread/s bwrtn/s 
12:10:01 AM 13995.40 947.73 13047.68 35553.77 104404 .64 
12:20:01 AM 14389 .13 1162.41 13226.72 40502.67 105837 ,12 
12:30:01 AM 16420.53 1107.85 15312.69 43851.18 122524.99 
01:00:01 PM 15961.31 1444.19 14517.12 52564.87 116160.35 

15327 .42 1201.94 14125 .48 43332 .46 113027 .64 


01:10:01 PM 








以 上 输出 的 含义 为 : 


-tps，rtps，wtps: TPS 数 ; 


-bread/s，bwrtn/s: 每 秒 读 写 block 的 大 小 ， 需 
要 注意 : 这 里 每 个 block 的 大 小 为 512 字 节 ， 不 要 与 


数据 库 中 的 Block 泥 淆 了 。 
(3) 历史 数据 的 汇总 


sar 的 历史 数据 保存 在 /var/log/sa/ 目 录 ， 可 以 设 
置 sar 历 史 数 据 的 保留 天 数 ， 得 看 默认 保存 儿 天 的 历 
史 数 据 ， 要 修改 保存 天 数 可 以 编 
辑 /etc/sysconfig/sysstat 中 的 HISTORY 值 。 当 设置 的 
保存 天 数 超过 28 天 ， 则 会 在 /var/log/sa/ 下 建 并 月 份 
目录 。 只 碍 看 茶 一 天 的 数据 指定 一 下 其 体 的 日 期 对 
应 的 历史 数据 文件 即 可 ， 例 如 查看 15 写 22: 00: 00 
到 23: 00: 00 的 CPU 性 能 统计 数据 ， 命 令 如 下 所 
修 \: 


[root@pghost1 ~]# Sar -q -f /var/log/sa/sai5 -s 22:00:00 -e 23 
10:00:01 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 
1.44 


10:10:01 PM 5 1311 1.38 1.36 
10:20:01 PM 2 1312 1.15 1.18 1.25 
10:30:01 PM 5 1313 1.50 1.20 1.19 
10:40:01 PM 4 1312 1.01 1.20 1.16 
10:50:01 PM 6 1334 1.64 1.25 1.18 
Average: 4 1316 1.34 1.25 1.23 


sar 是 性 能 统计 信息 的 集大成 者 ， 是 Linux 上 最 
为 全 面 的 性 能 分 析 工 具 之 一 ， 保 存 的 历史 数据 可 以 
借助 gunplot 工 具 绘制 性 能 指标 图 形 ， 还 可 以 使 用 
grafana 等 图 形 前 端 进行 性 能 指标 的 趋势 图 绘制 ， 直 
观 地 观察 性 能 趋势 。 





7. 其 他 性 能 工具 和 方法 

nmon， 像 一 个 图 形 界 面 的 top 一 样 ， 可 以 动态 
地 、 漂 亮 地 显示 当前 的 HO、CPU、 存 储 、 网 络 的 实 
时 性 能 ， 并 且 可 以 将 历史 数据 通过 OFFICE 宏 输出 
为 图 表 。 

iotop， 像 top 工 具 一 样 ， 但 它 是 用 来 观察 IO 状 
况 的 ， 可 以 方便 地 观察 当前 系统 的 VO 是 否 存 在 族 
祷 以 及 在 IO 出 现 瓶 祷 时 观察 是 哪些 进程 造成 的 。 
通常 还 会 配合 pidstat 命 令 一 起 来 排查 问题 。 


除了 使 用 iotop 这 样 专业 的 工具 来 定位 IO 问 
蛛 ， 还 可 以 直接 利用 进程 状态 来 找到 相关 的 进程 。 


我 们 知道 进程 有 如 下 几 种 状态 : 
-D 不 可 中 断 的 睡眠 状态 。 

-R 可 执行 状态 。 

-S 可 中 断 的 睡眠 状态 。 

-T 和 暂停 状态 或 跟踪 状态 。 


-Xx dead 退 出 状态 ， 进 程 即将 被 销 左 。 











-Z 退 出 状态 ， 进 程 成 为 僵尸 进程 。 


其 中 状态 为 D 的 进程 一 般 就 是 由 于 等 等/O 而 造 
成 所 谓 的 “ 非 中 断 睡眠 *?， 我 们 可 以 从 这 点 .入手 然 所 
一 步 步 地 定位 问题 ， 如 下 所 示 : 








[root@pghost1 ~]# for x in ‘seq 3 '; do ps -eo state,pid,cmd | 


或 


[root@pghost1 ~]# while true; do date; ps auxf | awk '{if($8== 


还 可 以 用 pidstat-d 1 来 合 看 进程 的 读 写 情况 ， 用 
来 诊断 MO 问题 。 


10.2.2 Linux 系统 的 IO 调度 算法 





破 盘 IJO 通 钊 会 首先 成 为 数据 库 服 务 堪 的 瓶 
因此 我 们 先 简 单 了 解 在 Linux 系 统 中 的 IO 调度 
算法 ， 并 根据 不 同 的 硬件 配置 ， 调 整 调 度 算 法 提高 
数据 库 服务 器 性 能 。 对 于 数据 库 的 读 写 操作 ， 
Linux 操 作 系 统 在 收 到 数据 库 的 请 求 时 ，Linux 内 核 
并 不 是 立即 执行 该 请 求 ， 而 是 通过 IO 调度 算法 ， 
尝试 合并 请 求 ， 再 发 送 到 块 设备 中 。 








通过 如 下 命令 得 看 当前 系统 文 持 的 调度 算法 : 


[root@pghost1 ~]# dmesg | grep -i scheduler 
io scheduler noop registered 

io scheduler anticipatory registered 

io scheduler deadline registered 

io scheduler cfq registered (default) 


cfq 称 为 绝对 公平 调度 算法 ， 它 为 每 个 进程 和 
线程 单独 创建 一 个 队列 来 管理 该 进程 的 VO 请 求 ， 
为 这 些 进程 和 线程 均匀 分 布 O 带 宽 ， 比 较 适 合 
通用 服务 器 ， 是 Linux 系 统 中 默认 的 IO 调度 算法 。 


noop 称 为 电梯 调度 算法 ， 它 基于 FIFO 队 列 实 
现 ， 所 有 LO 请 求 先 进 先 出 ， 适 合 SSD。 


deadline 称 为 绝对 保障 算法 ， 它 为 恋 和 写 分 别 
创建 了 FIFO 队 列 ， 当 内 核 收 到 请 求 时 ， 先 尝试 合 
并 ， 不 能 合并 则 尝试 排序 或 放 入 队列 中 ， 并 有 旦 尽量 
保证 在 请 求 达 到 最 终 期 限时 进行 调度 ， 避 免 有 一 些 
请 求 长 时 间 不 能 得 到 人 处理， 适合 虚拟 机 所 在 宿主 机 
人 髓 或 /JO 压 力 比 较 重 的 场景 ， 例 如 数据 库 服 务 器 。 


可 以 通过 以 下 命令 碍 看 磁盘 sda 的 IO 调度 算 





法 : 


[root@pghost1 ~]# cat /sys/block/sda/queue/scheduler 
noop anticipatory deadline [cfq] 





在 输出 结果 中 ， 被 方 括号 括 起 来 的 值 束 是 当前 
sda 磁 盘 所 使 用 的 调度 算法 。 


通过 shell 命 令 可 以 临时 修改 MO 调度 算法 : 





[root@pghost1 ~]# echo noop > /sys/block/sda/queue/scheduler 
[root@pghost1 ~]# cat /sys/block/sda/queue/scheduler 
[noop] anticipatory deadline cfq 


shell 命 令 修改 的 调度 算法 ， 在 服务 器 重启 后 就 
会 恢复 到 系统 默认 值 ， 永 久 修改 调度 算法 需要 修 
改 /etc/grub.conf 文 件 。 


10.2.3 ” 预 读 参数 调整 





除了 根据 不 同 应 用 场景 ， 配 置 磁 盘 的 IO 调度 
方式 之 外 ， 还 可 以 通过 调整 Linux 内 核 预 恋人 磁盘 局 
区 参数 进行 WO 的 优化 。 在 内 存 中 读 取 数 据 比 从 位 
盟 读 取 要 快 很 多 ， 增 加 Linux 内 核 预 该 ， 对 于 大 量 
顺序 读 取 的 操作 ， 可 以 有 效 减 少 IO 的 等 竺 时 间 。 
如 果 应 用 场景 中 有 大 量 的 碎片 小 文件 ， 过 多 的 预 读 
会 造成 资源 的 浪费 。 所 以 该 值 应 该 在 实际 环境 多 次 
测试 。 


通过 如 下 命令 查看 磁盘 预 读书 区 : 











[root@pghost1 ~]# /sbin/blockdev --getra /dev/sda 
256 








默认 为 256， 在 当前 较 新 的 硬件 机 器 中 ， 可 以 
设置 到 16384 或 更 大 。 通 过 以 下 命令 设置 磁盘 预 读 
肩 区 : 





[root@pghost1 ~]# /sbin/blockdev --setra 16384 /dev/sda 








[root@pghost1 ~]# echo 16384 /sys/block/sda/queue/read_ ahead_k 








为 防止 重启 失效 ， 可 以 将 配置 号 入 /etc/rc.local 
文件 ， 对 多 块 破 盘 设置 该 值 ， 如 下 所 示 : 





[root@pghost1 ~]# echo "/sbin/blockdev --setra 16384 /dev/dfa 
[root@pghost1 ~]# cat /etc/rc.local 
#!1/bin/sh 


# Database optimisation 
/sbin/blockdev --setra 16384 /dev/dfa /dev/sdai 





10.2.4 内 存 的 优化 


1.9wap 


在 闪存 方面 ， 对 数据 库 性 能 影响 最 恶劣 的 融 是 
Swap 了 。 当 内 存 不 足 ， 操 作 系 统 会 将 虚拟 内 人 存 写 入 
磁盘 进行 内 存 交 换 ， 而 数据 库 并 不 知道 数据 在 磁盘 
中 ， 这 种 情况 下 就 会 叶 致 性 能 急剧 下 降 ， 其 至 造成 
生产 故障 。 有 些 系统 管理 员 会 彻底 禁用 Swap， 但 如 
果 这 样 ， 一 旦 内 存 消耗 完 就 会 导 怪 OOM， 数 据 库 
也 会 随 之 骨 深 。 


查看 系统 是 否 已 经 使 用 到 了 Swap 最 简单 的 方法 
就 是 free 命 令 了 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ free -g 


total used free shared buffers 
Mem : 378 34 344 30 0 
-/+ buffers/cache: 3 375 
Swap: 31 0 31 


过 以 上 命令 及 其 输出 可 以 看 到 ，Swap 共 分 配 
实际 使 用 为 0， 说 明 并 没有 使 用 到 Swap。 


”还 可 以 使 用 ymstat 之 类 的 命令 来 下 看 ， 如 下 所 
修 : 


[postgres@pghost1 ~]$ vmstat 5 3 


r b swpd free buff cache si SO bi bo i 


0 0 0 361127840 390620 31882912 0 © 0 30 74 
1 0 0 361127840 390620 31882912 0 0 0 22 116 
[postgres@pghost1 ~]$ 


在 vmstat 的 输出 结果 中 第 三 列 swpd 如 果 大 于 
0， 则 说 明 使 用 到 了 Swap， 在 上 述 例 子 中 并 没有 使 
用 Swap。 


如 果 由 于 特殊 原因 ， 已 经 用 到 了 Swap， 那 么 应 
该 在 有 可 用 内 存 时 释放 已 使 用 的 Swap， 释 放 Swap 
的 过 在 实际 上 是 先 禁 宗 用 Swap 司 则 局 用 Swap 的 过 
程 。 禁 用 Swap 的 命令 是 swapoff， 启 用 Swap 的 命令 
i 例如 : 











[root@pghost1 ~]# swapoff -a 
[root@pghost1 ~]# 

[root@pghost1 ~]# free | We Swap 

Swap: 0 0 
[root@pghost1 ~]# 

[root@pghost1 ~]# swapon -a 
[root@pghost1 ~]# 

[root@pghost1 ~]# free | ge Swap 

Swap: 33554428 33554428 


禁用 Swap 之 后 ， 可 以 看 到 可 用 的 交换 空间 值 为 
0， 在 启用 Swap 之 后 ， 可 以 看 到 可 用 空间 是 预先 划 
分 的 Swap 分 区 的 大 小 。 


透明 大 页 


透明 大 页 (Transparent HugePages) 在 运行 时 
动态 分 配 内 存 ， 而 运行 时 的 内 存 分 配 会 有 延误 ， 对 
于 数据 库 管 理 系统 来 说 并 不 友好 ， 所 以 建议 关闭 透 
明 大 页 。 


得 看 透明 大 页 的 系统 配置 的 命令 如 下 所 示 : 





[root@pghost1 ~]# cat /sys/kernel/mm/transparent_hugepage/enat 
[always] madvise never 





在 上 述 命 令 的 输出 中 方 括 写 包围 的 值 束 是 当前 
值 ， 关 闭 透 明 大 页 的 方法 如 下 所 示 : 





[root@pghost1 ~]# echo never > /sys/kernel/mm/transparent_huge 
[root@pghost1 ~]# cat /sys/kernel/mm/transparent_hugepage/enat 
always madvise [never] 





永久 禁用 透明 大 页 可 以 通过 编辑 /etc/rc.local， 
加 入 以 下 内 容 : 





if test -f /sys/kernel/mm/transparent_hugepage/enabled; then 
echo never > /sys/kernel/mm/transparent_hugepage/enabled 

fi 

if test -f /sys/kernel/mm/transparent_hugepage/defrag; then 
echo never > /sys/kernel/mm/transparent_hugepage/defrag 

fi 





还 可 以 通过 修改 /etc/grub.conf， 在 kernel 的 行 末 


加 上 transparent_hugepage=never 禁 用 透明 大 页 ， 如 
下 所 示 : 


kernel /boot/vmlinuz-2.6.32-642.11.1.e16.x86 64 ro root=UUID=c 


3.NUMA 


NUMA 架 构 会 优先 在 请 求 线程 所 在 的 CPU 的 
local 内 存 上 分 配 空 间 ， 如 果 local 内 存 不 足 ， 优 先 淘 
汰 local 内 存 中 无 用 的 页 面 ， 这 会 导致 每 个 CPU 上 的 
内 存 分 配 不 均 ， 虽 然 可 以 通过 配置 NUMA 的 轮 询 机 
制 缓解 ， 但 对 于 数据 库 管理 系统 仍 不 义 好 ， 建 议 关 
路 NUMA。 


查看 NUMA 在 操作 系统 中 是 否 开启 的 命令 如 下 
所 示 : 


[root@pghost1 ~]# numactl1 --hardware 
available: 2 nodes (0-1) 
node 0 cpus: O0246 8 10 12 14 16 18 20 22 24 26 28 30 32 34 
node 0 size: 196514 MB 
node 0 free: 186290 MB 
node 1 cpus: 1357 9 11 13 15 17 19 21 23 25 27 29 31 33 35 
node 1 size: 196608 MB 
node 1 free: 192336 MB 
node distances: 
node 0 1 
0: 10 21 
1: 21 10 


或 使 用 numastat 命 令 ， 如 下 所 示 : 


[root@pghost1 ~]# numastat 


node0 nodel1 
numa_hit 27207118 27526494 
numa_miss 0 0 
numa_foreign 0 0 
interleave_hit 111148 111125 
lJocal_ node 27205425 27405472 
other_node 1693 121022 


通过 numactl 的 输出 ， 目 前 可 以 看 到 两 个 CPU 内 
存 节点 : available: 2nodes (0-1) ， 并 且 这 两 个 节 
点 所 分 配 的 内 存 大 小 是 不 一 样 的 。 


关闭 NUMA 最 直接 的 方法 是 从 服务 器 的 BIOS 
中 关闭 ， 例 如 某 品牌 服 务 器 的 关闭 方法 是 禁用 内 存 
配置 中 的 Node Interleaving。 其 手册 中 的 说 明 如 下 : 








Node Interleaving (市 点 交叉 存 取 〉 指定 是 否 
持 非 统一 内 存 架 构 。 如 果 此 字段 设 为 Enabled (已 启 
用 ) ， 当 安装 的 是 对 称 内 存 配置 时 ， 文 持 内 存 交 叉 
存 取 。 如 果 此 字段 设 为 Disabled〈 己 禁用) ， 系 统 
文 持 NUMA 《〈 非 对 称 ) 内 存 配置 。 在 默认 情况 下 ， 
该 选项 设 为 Disabled (禁用 ) 。 





还 可 以 通过 编辑 /etc/grub.conf， 在 kernel 的 行 末 
加 上 numa=off 禁 用 NUMA， 如 下 所 示 : 


kernel /boot/vmlinuz-2.6.32-642.11.1.el16.x86 64 ro root=UUID=C 





关闭 之 后 再 查看 NUMA 的 状态 ， 如 下 所 示 : 





[root@pghost1 ~]# numactl1 --hardware 
available: 1 nodes (0) 
node 0 cpus: 01234567891410 11 12 13 14 15 16 17 18 19 
node 0 size: 393122 MB 
node 0 free: 379902 MB 
node distances : 
node 0 
0: 10 
[root@pghost1 ~]# 
[root@pghost1 ~]# numastat 


node0 
numa_hit 3613403 
numa_miss 0 
numa_foreign 0 
interleave_hit 222419 
local node 3613403 
other_node 0 








关闭 之 后 观察 数据 库 的 表现 会 友 现 性 能 有 一 定 
幅度 提升， 并 且 原 本 有 一 些小 波动 的 地 方 已 经 得 到 
改善 。 在 Linux 内 核 参 数 中 ， 还 有 其 他 的 一 些 内 存 
调整 的 参数 可 以 进行 调整 ， 但 总 体 来 说 市 来 的 收益 
并 不 大 ， 有 兴趣 的 读者 可 以 再 深入 研究 。 


10.3 数据库 调 优 
10.3.1 全 局 参数 调整 


在 postgresql.conf 配 置 文件 中 有 很 多 参数 可 以 灵 
活 配置 数据 库 的 行为 ， 本 章 介 绍 其 中 几 个 容易 产生 
分 卜 或 容易 忽略 的 ， 对 性 能 影响 较 大 的 参数 的 调整 
方法 和 原则 。 


在 PostgreSQL 数 据 库 局 动 时 ， 残 会 分 配 所 有 的 
共享 内 存 ， 即 使 没有 请 求 ， 共 享 内 存 也 会 保持 固定 
的 大 小 ， 共 享 内 存 大 小 由 shared_buffers 参 数 决 定 。 
当 PostgreSQL 在 接收 到 客户 端 请 求 时 ， 服 务 进程 会 
首先 在 shared_buffers 碍 找 所 需 的 数据 ， 如 末 数 据 已 
经 在 shared_buffers 中 ， 服 务 进程 可 以 在 内 存 中 进行 
客户 端 请 求 的 处 理 ;， 如果 shared_buffers 中 没有 所 需 
数据 ， 则 会 从 操作 系统 请 求 数据 ， 多 数 情 况 这 些 数 
据 将 从 破 盘 进行 加 载 ， 我 们 知道 磁盘 相对 内 存 的 存 
取 速 度 要 慢 很 多 ， 增 加 shared_buffers 能 使 服务 进程 
尽 可 能 从 shared_buffers 中 找到 所 需 数据 ， 避 免 去 读 
矿 盘 。 


在 默认 的 postgresql.conf 中 ，shared_buffers 的 值 
都 设置 得 很 小 ， 在 PostgreSQL 10 中 ， 它 的 默认 值 只 














有 128MB， 对 于 目前 大 多 数 的 服务 器 硬件 配置 以 及 
应 对 的 请 求 量 来 说 ， 这 个 值 太 过 保守 ， 建 议 设置 大 
一 些 。 由 于 PostgreSQL 依 赖 于 操作 系统 缓存 的 方 
式 ，shared_buffers 的 值 也 不 是 越 大 越 好 ， 建 议 该 参 
数 根据 不 同 的 硬件 配置 ， 使 用 pgbench 进 行 测 试 ， 

得 到 一 个 最 佳 值 。 


work_mem 用 来 限制 每 个 服务 进程 进行 排序 或 
hash 时 的 内 存 分 配 ， 指 定 内 部 排序 和 hash 在 使 用 临 
时 磁盘 文件 之 前 能 使 用 的 内 存 数 量 ， 它 的 默认 值 是 
4MB， 因 为 它 是 针对 每 个 服务 进程 设置 的 ， 所 以 不 
宜 设 置 太 大 。 当 每 个 进程 得 到 的 work_mem 不 足以 
排序 或 hash 使 用 时 ， 排 序 会 借助 磁盘 临时 文件 ， 使 
得 排序 和 hash 的 性 能 严重 下 降 。 配 置 该 参数 时 ， 有 
必要 了 解 服务 器 上 所 运行 的 查询 的 特征 ， 如 果 主 要 
运行 一 些小 数据 量 排序 的 查询 ， 可 以 不 用 设置 过 
大 。PostgreSQL 在 排序 时 有 Top-N heapsort、Quick 
sort、External merge 这 几 种 排序 方法 ， 如 果 在 查询 
计划 中 发 现 使 用 了 External merge， 说 明和 需要 适当 增 
加 work_mem 的 值 。 


random_page_cost 代 表 随 机 访问 磁盘 块 的 代价 
估计 。 参 数 的 默认 值 是 4， 如 果 使 用 机 械 磁 盘 ， 这 
个 参数 对 得 询 计 划 没 有 影响 ， 但 现在 越 来 越 多 的 服 
务 器 使 用 固态 磁盘 ， 它 也 成 为 一 个 重要 的 参数 ， 如 
果 使 用 固态 人 磁盘， 建议 将 它 设 置 为 比 seq_page_cost 


























稍 大 即 可 ， 例 如 1.5， 使 得 得 询 规划 喜 更 倾 同 于 索引 


扫 摘 。 
PostgreSQL 还 有 很 多 与 性 能 相关 的 参数 ， 在 家 


方 手 册 中 对 每 一 个 参数 者 进行 了 详细 的 说 明 ， 该 者 
可 以 进行 深入 研究 ， 这 里 不 再 芍 述 。 





10.3.2 ”统计 信息 和 查询 计划 


在 运行 期 间 ，PostgreSQL 会 收集 大 量 的 数据 

库 、 表 、 有 索引 的 统计 信息 ， 查 询 优 化 右 通 过 这 些 统 
计 信 息 估 计 碍 询 运 行 的 时 间 ， 然 后 选择 最 快 的 查询 
路 径 。 这 些 统计 信息 都 保存 在 PostgreSQL 的 系统 表 
中 ， 这 些 系统 表 都 以 pg_stat 或 pg_statio 开 头 。 这 些 
统计 信息 一 类 是 文 撑 数据 库 系 统 内 部 方法 的 决策 数 
据 ， 例 如 决定 何 时 运行 autovacuum 和 如 何 解释 查询 
计划 。 这 些 数据 保存 在 pg_statistics 中 ， 这 个 表 只 有 
超级 用 户 可 读 ， 普 通用 户 没 有 权限 ， 需 要 查看 这 些 
数据 ， 可 以 从 pg_stats 视 图 中 查询 。 男 一 类 统计 数据 
用 于 监测 数据 库 级 、 表 级 、 语 句 级 的 信息 。 本 节 介 
绍 几 个 常用 的 重要 系统 表 和 系统 视图 。 





1.pg_stat_database 


数据 库 级 的 统计 信息 可 以 通过 pg_stat_database 
这 个 系统 视图 来 人 查看， 它 的 定义 如 下 : 











mydb=# \d pg_stat_database 
View "pg_catalog.pg_stat_ database" 





Column | Type | Collation | Nullatk 
Se 人 
datid | oid | | 
datname | name | | 
numbackends | integer | | 
xact_commit | bigint | | 
xact_rollback | bigint | | 
blks_read | bigint | | 
blks_hit | bigint | | 
tup_returned | bigint | | 
tup_fetched | bigint | | 
tup_inserted | bigint | | 
tup_updated | bigint | | 
tup_deleted | bigint | | 
conflicts | bigint | | 
temp_files | bigint | | 
temp_bytes | bigint | | 
deadlocks | bigint | | 
blk_read time | double precision | | 
blk_ write time | double precision | | 
stats_reset | timestamp with time zone | | 

参数 说 明 如 下 : 

. numbackends: 当前 有 多 少 个 并 发 连接 ， 理 


论 上 控制 在 cpu 核 数 的 1.5 倍 可 以 获得 更 好 的 性 能 ; 


blks_read ，blks_hit: 读 取 磁盘 块 的 次 数 与 这 
些 块 的 缓存 命中 数 ; 


Xact_commit，xact_rollback: 提交 和 和 回 深 的 事 


务 数 ; 


deadlocks: 从 上 次 执行 pg_stat_reset 以 来 的 死 


通过 下 面 的 查询 可 以 计算 缓存 命中 率 : 


SELECT blks_hit::float/(blks_read + blks_hit) as cache_ hit_rat 


绥 存 命中 率 是 衡量 MO 性 能 的 最 重要 指标 ， 它 
应 该 非常 接近 1， 否 则 应 该 调整 shared_buffers 的 配 
置 ， 如 果 命 中 率 低 于 99%， 可 以 尝试 调 大 它 的 值 。 


通过 下 面 的 但 询 可 以 计算 事务 提交 率 : 





SELECT xact_ commit: :float/(xact_commit + xact_rollback) as suc 


事务 提交 率 则 可 以 知道 我 们 应 用 的 健康 情况 ， 
它 应 该 等 于 或 非常 接近 1， 否 则 检查 是 售 死 锁 或 其 
他 超时 太 多 。 


在 pg_stat_database 系 统 视图 的 字段 中 ， 除 
numbackends 字 段 和 stats_reset 字 段 外 ， 其 他 字段 的 
值 是 自从 stats_reset 字 段 记 录 的 时 间 点 执行 
pg_stat_reset《) 命令 以 来 的 统计 信息 。 建 议 使 用 者 
在 进行 优化 和 参数 调整 之 后 执行 pg_stat_reset () 命 
令 ， 方 便 对 比 优化 和 调整 前 后 的 各 项 指标 。 有 读者 


看 到 “stat”reset” 字 样 的 命令 会 心 存 顾虑 ， 担 心 执 行 
这 条 命令 会 影响 查询 计划 ， 
是 系统 表 pg_statistics， 它 的 数据 是 由 ANALYZE 命 

令 来 填充 ， 所 以 不 必 担 心 执行 pg_stat_reset () 外 





会 影响 查询 计划 。 


2.pg_stat_user_tables 


实际 上 决定 查询 计划 的 


命令 


表 级 的 撤 计 信 过 轧 最 常用 的 是 pg_stat_user (all) 





_tables 视 图 ， 


蕊 的 定义 如 下 : 





mydb=# \d pg_stat_user_tables 





View "pg_catalog.pg_stat_ user_tables" 


Column 


relid 

schemaname 
relname 

sedq_scan 
seq_tup_read 
idx_scan 
idx_tup_fetch 
n_tup_ins 
n_tup_upd 
Nn_tup_del 
n_tup_hot_upd 
n_live_tup 
n_dead_tup 
n_mod_since_analyze 
last_vacuum 
last_autovacuum 
last_analyze 
last_autoanalyze 
Vacuum_count 
autovacuum_count 
analyze_count 
autoanalyze_count 


timestamp 
timestamp 
timestamp 
timestamp 
bigint 
bigint 
bigint 
bigint 





Type 


with time 
with time 
with time 
with time 


Zone 
ZonNne 
ZOonNne 
Zone 


| Collation 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 


last_vacuum，last_analyze: 最 后 一 次 在 此 表 上 
手动 执行 vacuum 和 analyze 的 时 间 。 


last_autovacuum，]last_autoanalyze: 最 后 一 次 
在 此 表 上 被 autovacuum 守 护 程 序 执行 autovacuum 和 
analyze 的 时 间 。 


idx_scan，idx_tup_fetch: 在 此 表 上 进行 索引 扫 
描 的 次 数 以 及 以 通过 索引 扫 摘 获取 的 行 数 。 


seq_scan，seq_tup_read: 在 此 表 上 顺序 扫描 的 
次 数 以 及 通过 顺序 扫描 读 取 的 行 数 。 


n_tup_ins，n_tup_upd，n_tup_del: 插入 、 更 新 
和 删除 的 行 数 。 


n_live_tup, n_dead_tup: live tuple 与 dead tuple 


的 估计 数 。 


从 性 能 角度 来 看 ， 最 有 意义 的 数据 是 与 索引 Vs 
顺序 扫描 有 关 的 统计 信息 。 当 数据 库 可 以 使 用 索引 
获取 那些 行 时 ， 融 会 发 生 索 引 扫描 。 另 一 方面 ， 当 
一 个 表 必 须 被 线性 处 理 以 确定 哪些 行 属 于 一 个 集合 
时 ， 会 及 生 顺 序 扫描 。 因 为 实际 的 表 数 据 人 存储 在 无 
序 的 堆 中 ， 该 取 行 是 一 项 耗 时 的 操作 ， 顺 序 扫描 对 
于 大 表 来 说 是 成 本 非常 高 。 因 此 ， 应 该 调整 索引 定 














义 ， 以 便 数据 库 尽 可 能 少 地 执行 顺序 扫描 。 索 引 扫 
描 与 整个 数据 库 的 所 有 扫描 的 比率 可 以 计算 如 下 : 


SELECT sum(idx_scan)/(sum(idx_scan) + sum(seq_scan)) as idx_sc 
SELECT relname,idx_scan::float/(idx_scan+seq_scan+1) as idx_sc 





索引 使 用 率 应 该 尽 可 能 地 接近 1， 如 果 索 引 使 
用 率 比 较 低 应 该 调整 索引 。 有 一 些 很 小 的 表 可 以 忽 
略 这 个 比例 ， 因 为 顺序 扫 拉 的 成 本 也 很 低 。 


3.pg_stat_statements 


语句 级 的 统计 信息 一 般 通 过 
pg_stat_statements、postgres 日 志 、auto_explain 来 获 


取 。 


开启 pg_stat_statements 需 要 在 postgresql.conf 中 


配置 ， 如 下 所 示 : 


shared_preload_ libraries = 'pg_stat_ statements' 
pg9_stat_statements.track = all 


然后 执行 CREATE EXTENSION 启 用 它 ， 如 下 
所 示 : 


mydb=# CREATE EXTENSION pg_stat_statements,; 


CREATE EXTENSION 





pg_stat_statements 视 图 的 定义 如 下 : 





mydb=# \d pg_stat_statements 
View "public.pg_stat_statements" 


Column 


dbid 

queryid 

query 

calls 

total_ time 
min_time 

max_time 

mean_time 
stddev_time 

rows 
shared_blks_hit 
shared_blks_read 
shared_blks_dirtied 
shared_blks_written 
local blks_hit 
local blks_read 
lJocal blks_dirtied 
local blks written 
temp_blks_read 
temp_blks_ written 
blk_read_ time 
blk_write time 


| Type 


| 

| 

| 

| 

| bigint 

| double precision 
| double precision 
| double precision 
| double precision 
| double precision 
| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| bigint 

| double precision 
| double precision 


| Collation | Nullable 
和 Pa 








pg_stat_statements 提 供 了 很 多 维度 的 统计 信 
轧 ， 最 音 用 的 是 统计 运行 的 所 有 得 询 的 总 的 调用 次 
数 和 平均 的 CPU 时 间 ， 对 于 分 析 慢 得 询 非 常 有 大 
助 。 例 如 得 询 平 均 执 行 时 间 最 长 的 3 条 得 询 ， 如 下 














所 示 : 


mydb=# SELECT calls,total time/calls AS avg_ time,1left(query,80 
calls | avg_time | 
SS ER 
678704 | 1084.18282038266 | SELECT id, user_id,user_name, 
678704 | 1081.78246124378 | SELECT f.* FROM tbl_f f INNER 
126 | 365.336761904762 | SELECT tableoid, oid, proname 
(3 rows) 


通过 查询 pg_stat_statements 视 图 ， 可 以 决定 先 
对 哪些 租 询 进行 优化 可 获得 的 收益 最 高 ， 对 性 能 提 
升 最 大 。 执 行 pg_stat_statements_resetH 可 以 重 置 
pg_stat_statements 的 统计 信息 。 


4. 公 看 SQL 的 执行 计划 


执行 计划 ， 也 叫 作 查询 计划 ， 会 显示 将 怎样 扫 
描 语句 中 用 到 的 表 ， 例 如 使 用 顺序 扫描 还 是 索引 扫 
描 等 等 ， 以 及 多 个 表 连 接 时 使 用 什么 连接 算法 来 把 
每 个 输入 表 的 行 连接 在 一 起 。 在 PostgreSQL 中 使 用 
EXPLAIN 命 令 来 查看 执行 计划 ， 例 如 : 





mydb=# EXPLAIN SELECT * FROM tbl; 

QUERY PLAN 
Seq Scan on tbl (cost=0.00..20.70 rows=1070 width=48) 
(1 row) 


在 EXPLAIN 命 令 后 面 还 可 以 跟 上 ANALYZE 得 
到 真实 的 查询 计划 ， 例 如 : 


mydb=# EXPLAIN ANALYZE SELECT * FROM tbl; 
QUERY PLAN 


Seq Scan on tbl (cost=0.00..20.70 rows=1070 width=48) (actua 
Planning time: 0.117 ms 

Execution time: 0.058 ms 

(3 rows) 


但 是 需要 注意 的 是 : 使 用 ANALYZE 选 项 时 语 
句 会 被 执行 ， 所 以 在 分 析 INSERT、UPDATE、 
DELETE、CREATE TABLE AS 或 者 EXECUTE 命 令 
的 查询 计划 时 ， 应 该 使 用 一 个 事务 来 执行 ， 得 到 真 
正 的 查询 计划 后 对 该 事务 进行 回 深 ， 束 会 避免 因为 
使 用 ANALYZE 选 项 而 修改 了 了 数据， 例如: 





mydb=# BEGIN; 
BEGIN 
mydb=# EXPLAIN ANALYZE UPDATE tbl SET ival = ival * 10 WHERE i 
QUERY PLAN 
Update on tbl (cost=0.15..8.17 rows=1 width=54) (actual time 
-> Index Scan Using tb]l pkey on tbl (cost=0.15..8.17 row 
Index Cond: (id = 1) 

Planning time: 4.237 ms 

Execution time: 0.315 ms 

(5 rows) 
mydb=# ROLLBACK; 

ROLLBACK 


在 疯 读 得 询 计划 时 ， 有 一 个 简单 的 原则 : 从 下 
往 上 看 ， 从 右 往 左 看 。 例 如 上 面 的 例子 ， 从 下 往 上 
看 最 后 一 行 的 内 容 是 Execution time: 0.315ms， 是 
这 条 语句 的 实际 执行 时 间 是 0.315ms; 往 上 一 行 的 
内 容 是 Planning time: 4.237ms， 是 这 条 语句 的 查询 
计划 时 间 4.237ms; 往 上 一 行 ， 一 个 箭头 在 上 一 行 
的 右 侧 缩 进 处 ， 表 示 先 使 用 也 ] 表 上 的 tbl_pkey 进 行 
了 Index Scan， 然 后 到 最 上 面 一 行 ， 在 tb] 表 上 执行 
了 Update。 在 每 行 计划 中 ， 都 有 几 项 值 ， 
Ccost=0.00..XXX) 预 估 该 算 子 开销 有 多 么 “ 史 
贯 ”。“ 晤 贯 > 按 照 磁 盘 读 计算 。 这 里 有 两 个 数值 : 
第 一 个 表示 算 子 返回 第 一 条 结果 集 最 快 需要 多 少时 
间 ; 第 二 个 数值 (通常 更 重要 ) 表示 整个 算 子 需要 
多 长 时 间 。 开 销 预 估 中 的 第 二 项 (rows=xxx) 表示 
PostgreSQL 预 计 访 算 子 会 返回 多 少 条 记录 。 节 后 一 
项 (width=1917) 表示 结果 集中 一 条 记录 的 平均 长 
上 度 〈 字 贡 数 ) ， 由 于 使 用 了 ANALYZE 和 选项， 后面 
还 会 有 实际 执行 的 时 间 统 计 。 


除了 ANALYZE 选 项 ， 还 可 以 使 用 COSTS、 
BUFFERS、TIMING、FORMAT 这 些 选 项 输出 比较 
详细 的 得 询 计 划 ， 例 如 ; 



































mydb=# EXPLAIN (ANALYZE on, TIMING on , VERBOSE on， BUFFERS on 
QUERY PLAN 


Index Scan Using tbl _ pkey on public.tbl (cost=0.15..8.17 row 


Output: id, ival, description, created_ time 
Index Cond: (tbl.id = 10) 
Buffers: shared hit=1 

Planning time: 0.177 ms 

Execution time: 0.065 ms 

(6 rows) 


使 用 EXPLAIN 的 选项 (ANALYZE、COSTS、 
BUFFERS、TIMING、VERBOSE) 可 以 帮助 开发 
员 获 取 非 常 详细 的 查询 计划 ， 但 是 有 了 时候 我 们 会 
有 一 些 需要 高 度 优 化 的 需求 ， 或 者 是 一 些 语句 的 查 
询 计 划 提 供 的 信息 不 能 完全 判断 语句 的 优 务 ， 这 时 
候 还 可 以 使 用 session 级 的 log_xxx_stats 来 判断 问 
题 。PostgreSQL 在 initdb 后 ，log_statement_stats 人 参数 
默认 是 关闭 的 ， 因 为 打开 它 会 在 执行 每 条 命令 的 时 
候 ， 执 行 大 量 的 系统 调用 来 收集 资源 消耗 信息 ， 上 所 
以 在 生产 环境 中 也 应 该 关闭 它 ， 一 般 都 在 Session 级 
别 使 用 它 。 














在 postgresql.conf 中 有 log_parser_Sstats、 
log_planner_stats 和 1log_statement_stats 这 几 个 选项 ， 
默认 值 都 是 off， 其 中 log_parser_stats 和 
log_planner_stats 这 两 个 参数 为 一 组 ， 
log_statement_stats 为 一 组 ， 这 两 组 参数 不 能 全 部 同 
时 设置 为 on。 


查看 parser 和 planner 的 系统 资源 使 用 的 查询 计 
划 ， 如 下 所 示 : 





mydb=# Set client min messages = lo0g; 
mydb=# set log_parser_stats = on; 
mydb=# set log_planner_stats = on; 








运行 EXPLAIN ANALYZE 查 看 查询 计划 ， 如 下 
所 示 : 





mydb=# EXPLAIN ANALYZE select * from tbl limit 10; 

LOG: PARSER STATISTICS 

DETAIL: ! System USage stats.: 

! 0.000060 elapsed 0.000000 user 0.000000 System sec 
! [0.061990 USser 0.014997 sys totall 

! 0/0 [600/0] filesystem blocks in/out 

! 0/0 [0/2640] page faults/reclaims, © [0] swaps 

! 0 [0] signals rcvd, 0/90 [0/0] messages rcvd/sent 

! 0/0 [55/1] voluntary/involuntary context switches 
LOG: PARSE ANALYSIS STATISTICS 

DETAIL: ! System usage stats: 

! 0.000086 elapsed 0.000000 user 0.000000 System sec 
! [0.061990 USser 0.014997 sys total] 

! 0/0 [600/0] filesystem blocks in/out 

! 0/0 [0/2640] page faults/reclaims, © [0] swaps 

! 0 [0] signals rcvd, 0/0 [0/0] messages rcvd/sent 

! 0/0 [55/1] voluntary/involuntary context switches 
LOG: REWRITER STATISTICS 

DETAIL: ! System USage stats.: 

! 0.000001 elapsed 0.000000 user 0.000000 System sec 
! [0.061990 USser 0.014997 sys totall 

! 0/0 [600/0] filesystem blocks in/out 

! 0/0 [0/2640] page faults/reclaims, © [0] swaps 

! 0 [0] signals rcvd, 0/0 [0/0] messages rcvd/sent 

! 0/0 [55/1] voluntary/involuntary context switches 
LOG: PLANNER STATISTICS 

DETAIL: ! System USage stats.: 

! 0.000165 elapsed 0.001000 user 0.000000 system sec 
! [0.063990 USser 0.014997 sys totall 

! 0/0 [600/0] filesystem blocks in/out 

! 0/0 [0/2640] page faults/reclaims, © [0] swaps 

! 0 [0] signals rcvd, 0/0 [0/0] messages rcvd/sent 


0/0 [58/1L] voluntary/involuntary context Switches 
QUERY PLAN 
Limit (cost=0.00..0.43 rows=10 width=224) (actual time=0.028 
-> Sed Scan on tbl (cost=0.00..64771378.60 rows=14967641 
Planning time: 0.198 ms 
Execution time: 0.083 ms 
(4 rows) 








查看 查询 的 系统 资源 使 用 ， 如 下 所 示 : 





mydb=# set client min messages = lo0g; 

mydb=# set log_ parser_stats = off; 

mydb=# set log_planner_stats = off; 

mydb=# Set log_statement_stats = on; 

mydb=# EXPLAIN ANALYZE select * from tbl limit 10; 

LOG: QUERY STATISTICS 

DETAIL: ! System USage stats.: 

! 0.000603 elapsed 0.000000 user 0.000000 System sec 

! [0.065989 user 0.014997 sys total] 

! 0/0 [600/0] filesystem blocks in/out 

! 0/0 [0/2640] page faults/reclaims, © [0] swaps 

! 0 [0] signals rcvd, 0/0 [0/0] messages rcvd/sent 

! 0/0 [62/1|] voluntary/involuntary context switches 

QUERY PLAN 

Limit (cost=0.00..0.43 rows=10 width=224) (actual time=0 ,027 
-> Sed Scan on tbl (cost=0.00..64771378.60 rows=14967641 

Planning time: 0.154 ms 

Execution time: 0.082 ms 

(4 rows) 





全 看 parser 利 planner 的 系统 资源 使 用 情况 的 伍 
询 计 划 输 出 内 容 很 多 ， 在 DETAIL: ! system usage 
stats: 之 后 的 前 两 行 显示 但 询 使 用 的 用 户 和 系统 
CPU 时 间 和 已 经 消耗 的 时 间 。 第 3 行 显 示 存 储 设 备 








《而 不 是 内 核 缓存 ) 中 的 MO。 第 4 行 涵 盖 内 存 页 面 
错误 和 回收 的 进程 地 址 空间 。 第 5 行 显 示 信 号 和 IPC 
消息 活动 。 第 6 行 显示 进程 上 下 文 切换 。 


10.33 受 引 管理 与 维 扩 


索引 在 所 有 关系 型 数据 库 的 性 能 方面 都 扮演 着 
极其 重要 的 角色 。 针 对 不 同 的 使 用 场景 ， 
PostgreSQL 有 许多 种 索引 类 型 来 应 对 ， 例 如 B- 
tree、Hash、GiST、SP-GiST、GIN、BRIN 和 Bloom 
等 等 。 最 党 用 最 和 常见 的 索引 类 型 是 B-tree。B-tree 索 
引 在 执行 CREATE INDEX 命 令 时 是 默认 的 索引 类 
型 。B-tree 索 引 通 钊 用 于 等 值 和 范围 得 询 ，Hash 系 
引 只 能 处 理 简 单 等 值 查 询 ; GIN 索引 是 适合 于 包含 
多 个 组 成 值 的 数据 值 ， 例 如 数组 ，GiST 过 引 并 不 是 
一 种 单独 的 索引 ， 而 是 一 个 通用 的 索引 接口 ， 可 以 
使 用 GiST 实 现 B-tree、R-tree 等 索引 结构 ， 在 
PostGIS 中 使 用 最 广泛 的 就 是 GiST 索 引 。 除 了 支持 
众多 类 型 的 索引 ，PostgreSQL 也 支持 唯一 索引 、 表 
达 式 索引 、 部 分 守 引 和 多 列 索 引 ，B-tree、GiST、 
GIN 和 BRIN 索 引 都 文 持 多 列 案 引 ， 最 多 可 以 文 持 32 
个 列 的 索引 。 


相同 的 碍 询 ， 有 时 候 会 使 用 索引 ， 但 有 时 候 会 
使 用 顺序 扫描 ， 这 种 情况 也 是 存在 的 。 大 多 数 时 候 
是 因为 顺序 扫描 有 可 能 比索 引 扫描 所 扫描 的 块 更 























多 ， 过 到 这 种 情况 还 需要 仔细 的 分 析 。 


在 PostgreSQL 中 执行 CREATE INDEX 命 令 时 ， 
可 以 使 用 CONCURRENTLY 人 参数 并 行 创建 索引 ， 使 
用 CONCURRENTLY 参 数 不 会 锁 表 ， 创 建 驼 引 过 程 
中 不 会 阻塞 表 的 更 新 、 插 入 、 删 除 操作 。 由 于 
PostgreSQL 的 MVCC 内 部 机 制 ， 当 运行 大 量 的 更 新 
操作 后 ， 会 有 “索引 膨胀 ”的 现象 ， 这 时 候 可 以 通过 
CREATE INDEX CONCURRENTLY 在 不 阻塞 查询 
和 更 新 的 情况 下 ， 在 线 重 新 创建 索引 ， 创 建 好 新 的 
索引 之 后 ， 再 删除 原先 有 膨胀 的 索引 ， 减 小 索引 尺 
寸 ， 提 高 查询 速度 。 对 于 主键 也 可 以 使 用 这 种 方式 
进行 重建 ， 重 建 方法 如 下 : 











mydb=# CREATE UNIQUE INDEX CONCURRENTLY ON mytbl USING btree(i 
CREATE INDEX 


这 时 可 以 看 到 id 字段 上 同时 有 两 个 索引 
mytbl_pkey 和 mytbl_id_idx， 如 下 所 示 : 


mydb=# SELECT schemaname,relname,indexrelname,pg_relation size 
schemaname | relname | indexrelname | index_size | idx_scan | 
public | mytbl | mytbl pkey | 223051776 | 1403532 | 141 
public | mytbl | mytbl_ id idx | 222887936 | © | 

(2 rows) 


开局 事务 删除 主键 索引 ， 同 时 将 第 二 索引 更 新 
为 主键 的 约束 ， 如 下 所 示 : 





mydb=# BEGIN; 

BEGIN 

mydb=# ALTER TABLE mytb1 DROP CONSTRAINT mytbl pkey; 

ALTER TABLE 

mydb=# ALTER TABLE mytbl ADD CONSTRAINT mytbl]_ id idx PRIMARY Kk 
ALTER TABLE 

mydb=# END; 

COMMIT 








”检查 表 索 引 ， 现 在 只 有 第 二 索引 了 ， 如 下 所 
修 : 





mydb=# SELECT schemaname,relname,indexrelname,pg_relation size 
schemaname | relname | indexrelname | index_ size | idx_scan | 
public | mytbl | mytbl_ id idx | 222887936 | 0 

(1 row) 





这 样 就 完成 了 主键 索引 的 重建 ， 对 于 大 规模 的 
数据 库 集群 ， 可 以 通过 pg_repack 工 具 进 行 定时 的 索 
引 重 建 。 


10d 林 晤 小 


本 章 简 单 介绍 了 服务 器 硬件 、 操 作 系 统 配置 对 
性 能 的 影响 ， 介 绍 了 一 些 常 用 的 Linux 监 控 性 能 工 
有 具 ， 并 着 重 介 绍 了 对 性 能 影响 较 大 的 几 个 方面 : 
IO 调度 算法 、 预 读 参 数 、Swap、 透 明 大 页 、 
NUMA 等 ， 以 及 它们 的 调整 原则 和 方法 。 在 数据 库 
层面 介绍 了 几 个 常用 和 容易 被 忽略 的 参数 ， 并 人 简单 
介绍 了 数据 库 级 别 、 表 级 别 、 查 询 级 别 统 计 信息 的 
系统 视图 ， 以 及 如 何 得 到 最 详细 的 查询 计划 的 方 
法 。 最 后 分 享 了 一 些 索引 方面 的 管理 和 维护 建议 。 
除了 文中 介绍 的 内 容 ， 定 时 进行 VACUUM 操作 和 
ANALYZE 操 作 ， 在 业务 低谷 时 段 定 时 进行 
VACUUM FREEZE 操 作 ， 及 时 处 理 慢 得 询 ， 硬 件 
的 监控 维护 也 很 重要 ， 性 能 调 优 不 是 一 次 性 任务 ， 
也 不 能 在 性 能 表现 已 经 很 差 的 时 候 才 去 做 ， 好 的 监 
控 系 统 ， 历 史 数 据 的 分 析 ， 慢 查询 的 优化 都 需要 不 
断 完 善 ， 才 能 保障 业务 系统 稳定 高 效 运 转 。 


第 11 半 ”基准 测试 与 pgbench 


在 数据 库 服务 器 的 人 硬件、 软件 环 场 中 建立 已 知 
的 性 能 基准 线 称 为 基准 测试 ， 是 数据 库 管 理 员 和 运 
维 人 员 需 要 掌握 的 一 项 基本 技能 。 设 计 优 民 的 基准 
测试 有 助 于 数据 库 选 型 ， 了 解数 据 库 产品 的 性 能 特 
态 ， 提 升 产 品质 量 。 根 据 测 试 目 的 的 不 同 ， 可 针对 
压力 、 性 能 、 最 大 负载 进行 专门 测试 ， 或 综合 测 
试 。 通 过 定量 的 、 可 复 现 的 、 能 对 比 的 方法 衡量 系 
统 的 否 吐 量 ， 也 可 以 对 新 人 硬件 的 实际 性 能 和 可 靠 性 
进行 测试 ， 或 在 生产 环境 过 到 问题 时 ， 在 测试 环境 
复 现 问题 。 本 章 将 讨论 PostgreSQL 数 据 库 和 基于 
PostgreSQL 数 据 库 开 发 的 应 用 系统 的 测试 方法 和 党 
见 的 测试 工具 ， 并 会 着 重 讲 解 PostgreSQL 内 置 的 
pgbench 训 试 工具 。 











11.1 关于 基准 测试 


我 们 的 软件 系统 者 是 运行 在 一 定 环 境 中 的 ， 例 
如 软件 运行 的 操作 系统 、 文 件 系统 和 人 硬件。 这 些 都 
受到 一 些 天 键 因 系 影响 : 


硬件 ， 如 服务 器 配置 、CPU、 内 存 、 存 储 ， 
通常 硬件 越 高 级 ， 系 统 的 性 能 越 好 ; 


-网络 ， 斋 客 不 足 也 会 严重 限制 系统 整体 性 能 
表现 ; 


负载 ， 不 同 的 用 户 数 ， 不 同 的 数据 量 对 系 细 
的 性 能 影响 也 非常 大 ; 


软件 ， 不 同 的 数据 库 在 不 同 的 操作 系统 、 不 
同 的 应 用 场景 下 性 能 表现 有 很 大 的 不 同 。 


在 现在 流行 的 应 用 中 ， 应 用 服务 器 、 网 络 、 绥 
存 都 比较 容易 进行 水 平 扩展 ， 达 到 提高 性 能 和 厨 吐 
量 的 目的 ， 但 关系 型 数据 库 管 理 系统 的 水 平 扩展 能 
力 受 到 很 多 因 系 限制 ， 一 般 只 能 通过 增加 缓存 层 、 
分 库 分 表 及 读 写 分 离 来 减轻 面临 的 压力 ， 对 多 数 使 
用 关系 型 数据 库 的 应 用 系统 ， 瓶 颈 主 要 在 数据 库 ， 
因此 数据库 层 的 基准 测试 尤为 重要 。 整 个 应 用 系统 








的 测试 和 评估 是 一 项 非常 复杂 的 工作 ， 这 里 我 们 只 
讨论 PostgreSQL 数 据 库 的 基准 测试 。 


11.1.1 基准 测试 的 稼 见 使 用 场景 





基准 测试 可 用 于 测试 不 同 的 硬件 和 应 用 场景 下 
的 数据 库 系统 配置 是 否 合理 。 例 如 更 换 新 型 的 磁盘 
对 当前 系统 磁盘 IO 能 力 不 足 的 问题 是 否 有 上 所 必 
助 ? 升级 了 操作 系统 内 核 版 本 是 否 有 性 能 提升 ? 不 
同 0 同 的 数据 库 参 数 配 置 的 表现 古 
去 样 的 ? 


通过 模拟 更 郧 的 负载 ， 可 以 预 估 压 力 增加 可 能 
市 来 的 瓶颈 ， 也 可 以 对 未 来 的 业务 增长 规划 有 上 所 玫 
助 。 


重 现 系 统 中 高 负载 时 出 现 的 错误 或 异常 。 当 生 
产 坏 境 在 局 负载 情况 下 出 现 异常 行为 时 ， 很 多 时 候 
并 不 能 即时 捕捉 到 寞 第 的 原因 ， 在 测试 环境 中 去 柑 
拟 出 现 异常 时 的 高 负载 场景 ， 进 行 分 析 并 解决 问 
题 ， 是 很 好 的 办 法 。 


新 系统 上 线 前 ， 大 致 模拟 上 线 之 后 的 用 户 行 为 
以 进行 测试 ， 根 据 测试 的 结果 对 系统 设计 、 代 码 和 
数据 库 配 置 进行 调整 ， 使 新 系统 上 线 即 可 达到 较 好 
的 性 能 状态 。 








模拟 较 高 的 负载 ， 知 道 系 统 在 什么 负载 情况 下 
将 无 法 正 负 工作 ， 也 就 是 通 币 说 的 “容量 规划 ”。 作 
为 容量 规划 的 参考 ， 需 要 注意 的 是 不 能 以 基准 测试 
的 结果 简单 地 进行 假设 。 因 为 数据 库 的 状态 一 直 在 
改变 ， 随 看 时 间 的 推移 或 业务 的 增长 ， 数 据 量 、 请 
求 量 、 并 友 量 以 及 数据 之 间 的 关系 部 在 发 生 看 变 
化 ， 还 可 能 有 很 多 功能 特性 的 变化 ， 有 一 些 新 功能 
的 影响 可 能 远 远 大 于 目前 功能 的 压力 总 量 ， 对 容量 
规划 只 能 做 大 概 的 评估 ， 这 十 数据 库 系 统 的 基准 相 
比 于 其 他 无 状态 系统 测试 的 不 同 点 。 




















11.1.2 ”基准 测 试 衡 量 指标 





通常 数据 库 的 基准 测试 最 关键 的 衡量 指标 有 : 
否 吐 量 CThroughput) 、 啊 应 时 间 (RT) 或 延迟 
(Latency) 和 并 发 量 。 


否 吐 量 衡量 数据 库 的 单位 时 间 内 的 事务 处 理 能 
力 ， 常 用 的 单位 是 TPS 每 秒 事务 数 ) 。 啊 应 时 间 
或 延迟 ， 描 述 操作 过 程 里 用 来 啊 应 服务 的 时 间 ， 根 
据 不 同 的 应 用 可 以 使 用 分 钟 、 秒 、 上 毫秒 和 微 秒 作为 
单位 。 通 常 还 会 根据 响应 时 间 的 最 大 值 、 最 小 值 以 
及 平均 值 做 分 组 统计 ， 例 如 90% 的 运行 周期 内 的 啊 
应 时 间 是 1 毫秒 ，10% 的 运行 周期 内 相应 时 间 是 5 之 
秒 ， 这 样 可 以 得 出 相对 客观 的 测试 结果 。 并 发 量 是 
指 同时 工作 的 连接 数 。 在 不 同 的 测试 场景 ， 需 要 关 























注 的 指标 也 会 不 同 ， 分 析 测 试 结 琳 时 ， 耕 吐 量 、 响 
应 时 间 、 并 友 量 是 必须 关注 的 三 个 基本 要 系 。 


11.1.3 ”基准 测试 的 原则 





面 对 一 个 复杂 的 系统 ， 在 测试 之 前 应 该 先 明确 
测试 的 目标 。 在 一 次 测试 中 不 可 能 将 系统 的 各 方面 
都 测试 得 很 清楚 ， 每 个 测试 尽量 目标 单一 ， 测 试 方 
法 简单 。 例 如 新 增加 了 一 个 索引 ， 需 要 测试 这 个 索 
引 对 性 能 的 影响 ， 那 么 我 们 的 测试 只 针对 这 一 个 查 
询 ， 关 注 索 引 调 整 前 后 这 个 查询 的 响应 时 间 和 吞吐 
量 的 变化 ， 但 如 果 同 时 还 做 了 很 多 其 他 可 能 影响 到 
测试 结果 的 变更 ， 就 可 能 无 法 得 出 明确 的 测试 结 
果 。 测 试 过 程 应 该 尽量 持续 一 定时 间 ， 如 果 测 试 时 
间 太 短 ， 则 可 能 因为 没有 绥 存 而 得 到 不 准确 的 测试 
结果 ; 在 测试 过 程 中 应 该 尽量 接近 真实 的 应 用 场 
景 ， 并 且 应 该 尽 可 能 地 多 收集 系统 状态 ， 例 如 参数 
配置 、CPU 使 用 率 、L/O、 网 络 流量 统计 等 ， 即 使 这 
些 数据 目前 可 能 不 需要 ， 但 也 应 该 先 保留 下 来 ， 避 
免 测 试 结果 缺乏 依据 。 

每 轮 测试 结束 后 ， 都 应 该 详细 记录 当时 的 配置 
和 结果 ， 并 尽量 将 这 些 信息 保存 为 容易 使 用 脚本 或 
工具 分 析 的 格式 。 


实际 测试 的 时 候 ， 并 不 会 很 顺利 ， 有 时 候 得 到 









































的 测试 结果 可 能 与 其 他 几 次 的 测试 结果 出 入 很 大 ， 
这 时 也 应 该 仔细 分 析 原 因 ， 例 如 僵 看 错误 日 志 等 。 


11.2 ”使 用 pgbench 进 行 测试 





TPC (事务 处 理性 能 委员 会 : Transaction 
Processing Performance Council, http:/www.tpc.org 
) 已 经 推出 了 TPC-A、TPC-B、TPC-C、TPC-D、 
TPC-E、TPC-W 等 基准 程序 的 标准 规范 ， 其 中 TPC- 
C 是 经 典 的 衡量 在 线 事 务 处 理 (OLTP〉 系 统 性 能 和 
可 伸缩 性 的 基准 测试 规范 ， 还 有 比较 新 的 OLTP 测 
试 规 范 TPC-E。 第 见 的 开源 数据 库 的 基准 测试 工具 
有 benchmarksql、sysbench 等 ，PostgreSQL 目 带 运行 
基准 测试 的 简单 程序 pgbench。pgbench 是 一 个 类 
TPC-B 的 基准 测试 工具 ， 可 以 执行 内 置 的 测试 脚 
本 ， 也 可 以 目 定 义 脚 本 文件 。 


11.2.1 pgbench 的 测试 结果 报告 


在 pgbench 运 行 结束 后 ， 会 输出 一 份 测试 结果 
的 报告 ， 典 型 的 输出 如 下 所 示 : 


transaction type: <builtin: TPC-B (sort of)> 

scaling factor: 100 

query mode: simple 

number of clients: 1 

number of threads: 1 

number of transactions per client: 10 

number of transactions actually processed: 10/10 
latency average = 2.557 ms 

tps = 391.152261 (including connections establishing) 


tps = 399.368200 (excluding connections establishing) 





transaction type 行 记录 本 次 测试 所 使 用 的 测试 
类 型 ， 
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scaling factor 记 录 pgbench 在 初始 化 时 设置 的 数 
据 量 的 比例 因子 ; 


query mode 是 测试 时 指定 的 得 询 类 型 ， 包 括 
simple 查 询 协 议 、extended 查 询 协 议 或 prepared 查 询 
协议 ; 


number of clients 是 测试 时 指定 的 客户 端 数量 ; 





number of threads 是 测试 时 指定 的 每 个 客户 站 
的 线程 数 ; 


number of transactions per client 是 测试 时 指定 的 
每 个 客户 端 运 行 的 事务 数 ; 





number of transactions actually processed 是 测试 
结束 时 实际 完成 的 事务 数 和 计划 完成 的 事务 数 ， 计 
划 完 成 的 事务 数 只 是 客户 并 数量 乘 以 每 个 客户 端的 
事务 数 的 值 。 如 采 测 试 成 功 结束 ， 实 际 完成 的 事务 
数 应 该 和 计划 完成 的 事务 数 相 等 ， 如 采 有 事务 执行 
失败 ， 则 只 会 显示 实际 完成 的 事务 数 。 





latency average 是 测试 过 程 中 的 平均 啊 应 时 间 ; 


最 后 两 行 TPS 的 值 分 别 是 包含 和 不 包含 建立 连 
接 开销 的 TPS 值 。 


11.2.2 ”通过 内 置 脚本 进行 测试 
1. 初 始 化 测试 数据 


pgbench 的 内 巷 脚 本 需要 4 张 表 : 
pgbench_branches、 pgbench_tellers、 
pgbench_accounts 和 pgbench_history。 使 用 pgbench 
初始 化 测试 数据 ，pgbench 会 自动 去 创建 这 些 表 并 
生成 测试 数据 。 在 初始 化 过 程 中 ， 如 果 数 据 库 中 存 
在 和 这 些 表 同名 的 数据 ，pgbench 会 删除 这 些 表 重 
新 进行 初始 化 。 


pgbench 初 始 化 语法 如 下 所 示 : 





pgbench -i [OPTION]... [DBNAME] 


pgbench 初 始 化 选项 如 下 所 示 : 


-i, --initialize 进入 初始 化 模式 ; 

-F, --fillfactor=NUM 设置 创建 表 时 ， 数 据 块 的 填充 因子 ， 这 个 值 的 取 值 
为 小 数 ， 默 认 值 是 100， 设 置 小 于 100 的 值 对 于 UI 
的 提升 ; 











-n，--no-vacuunm 初始 化 结束 后 不 执行 VACUUM 操作 








-q, --quiet 初始 化 生成 测试 数据 的 过 程 中 ， 默 认 会 在 每 10000 
到 静默 模式 后 ， 则 只 在 每 5 秒 打印 一 条 消息 ， 开 启 
数据 时 打印 过 多 的 消息 ; 

-S，--Scale=NUM 可 以 将 这 些 表 理解 为 公司 的 账户 数据 ， 出 纳 会 在 账 





出 ， 同 时 系统 会 记录 到 操作 历史 表 中 。 该 参数 是 
为 1。 当 它 的 值 是 1 时 ， 只 创建 一 家 公司 的 账户 ，: 
的 数据 ， 每 个 公司 默认 生成 的 测试 数据 量 如 下 : 








pgbench_branches 1k 

pgbench_tellers 10k 

pgbench_accounts 100000kK 

pgbench_history 0 

--foreign-keys 在 上 述 的 4 张 测试 表 之 间 创 建 外 键 约束 。 








--index-tablespace=TABLESPACE 

在 指定 的 表 空 间 创建 索引 
--tablespace=TABLESPACE 在 指定 的 表 空 间 创 建 表 
--unlogged-tables 把 上 述 4 张 测试 表 创 建 为 UNLOGGED 表 

















初始 化 测试 数据 的 命令 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -i -s 2 -F 80 
creating tables... 

100000 of 200000 tuples (50%) done (elapsed 0.02 s, remaining 
200000 of 200000 tuples (100%) done (elapsed 0.16 s, remaininog 
Vacuum, , ， 

Set primary keys... 

done. 





2. 使 用 pgbench 内 置 脚本 进行 测试 


pgbench 的 内 置 测试 脚本 有 tpcb-like、simple- 


update 和 select-only 三 种 。 可 以 通过 以 下 命令 查看 当 


前 版 本 的 pgbench 包 含 哪些 集成 的 测试 脚本 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -b list 


Available builtin Scripts : 
tpcb-1like 
simple-update 
select-only 





tpcb-like 执 行 的 脚本 内 容 是 一 个 包含 SELECT、 
UPDATE、INSERT 的 事务 





BEGIN; 
UPDATE pgbench _ accounts SET abalance = abalance + :delta \ 
SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 
UPDATE pgbench_ tellers SET tbalance = tbalance + :delta WH 
UPDATE pgbench_branches SET bbalance = bbalance + :delta \ 
INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) 
END; 
simple-update 执 行 的 脚本 如 下 所 示 : 
BEGIN; 
UPDATE pgbench_ accounts SET abalance = abalance + :delta \ 
SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 
INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) 
END; 
select-only 执 行 的 脚本 如 下 所 示 : 
BEGIN; 
SELECT abalance FROM pgbench_accounts WHERE aid = :aid; 
END; 





可 以 使 用 下 列 参 数 设 置 内 置 脚 本 测试 的 方式 : 





-b Scriptname[Q@weight] 
--builtin = Scriptname[Q@weight] 





scriptname 参 数 指定 使 用 哪 一 种 脚本 进行 测 
试 ， 默 认 使 用 tpcb-like 这 一 种 测试 脚本 。 例 如 使 用 


simple-update 进 行 测试 ， 代 人 码 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -b simple-upda 
starting vacuum...end. 

transaction type: <builtin: simple update> 

scaling factor: 100 

duery mode: simple 

number of clients: 1 

number of threads: 1 

number of transactions per client: 10 

number of transactions actually processed: 10/10 
latency average = 1.631 ms 

tps = 613.238093 (including connections establishing) 
tps = 631.101768 (excluding connections establishing) 





还 可 以 选择 3 种 内 置 脚本 混合 进行 测试 ， 并 在 
脚本 名 称 后 面 加 上 @ 符 号 ，@ 人 符号 后 面 加 一 个 脚本 
运行 比例 的 权重 的 整数 值 ， 例 如 使 用 simple-update 
和 select-only 两 种 内 置 脚本 ， 并 且 以 2: 8 的 比例 混 
合 进 行 测试 ， 代 人 码 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -b simple-upda 
starting vacuum...end. 
transaction type: multiple scripts 
scaling factor: 100 
duery mode: simple 
number of clients: 1 
number of threads: 1 
number of transactions per client: 10 
number of transactions actually processed: 10/10 
latency average = 0.617 ms 
tps = 1621.779592 (including connections establishing) 
tps = 1753.156910 (excluding connections establishing) 
SQL script 1: <builtin: TPC-B (sort of)> 

- weight: 0 (targets 0.0% of total) 

- 0 transactions (0.0% of total, tps = 0.000000) 


- latency average = -nan ms 
- latency stddev = -nan ms 
SQL script 2: <builtin: select only> 
- weight: 8 (targets 80.0% of total) 
- 9 transactions (90.0% of total, tps = 1459.601633) 
- latency average = 0.439 ms 
- latency stddev = 0.137 ms 
SQL script 3: <builtin: simple update> 
- weight: 2 (targets 20.0% of total) 
- 1 transactions (10.0% of total, tps = 162.177959) 
- latency average = 1.738 ms 
- latency stddev = 0.000 ms 





在 @ 符 后 面 的 测试 脚本 名 称 还 可 以 在 名 称 不 冲 
突 的 情况 下 ， 使 用 名 称 的 前 几 个 字母 进行 简写 ， 例 
如 上 面 的 例子 就 可 以 将 tpcb-like 简 写 为 tpcb 甚 至 是 
t，Simple 和 select 都 是 s 开 头 ， 残 不 能 简写 为 s 了 ， 但 
可 以 简写 为 si 和 se， 人 否则 会 有 如 下 错误 : 


ambiguous builtin name: 2 builtin scripts found for prefix "s" 


-b simple-update 可 以 使 用 -N 或 --skip-some- 
updates 参 数 人 简写 ，-b select-only 可 以 用 -S 或 --select- 
only 人 简写 ， 但 是 如 果 在 混合 测试 时 ， 使 用 这 种 简写 
方式 ， 则 不 能 指定 它们 各 目的 占 比 。 


使 用 内 置 脚本 混合 测试 ， 最 终 输 出 的 结果 除了 
常规 的 报告 项 之 外 ， 还 会 输出 每 个 测试 脚本 的 实际 
占 比 ， 以 及 每 个 类 型 的 测试 的 平均 延 时 、TPS 等 等 
更 加 详细 的 值 。 使 用 混合 方式 的 测试 ， 可 以 方便 模 











拟 不 同 的 读 写 比 。 
11.2.3 ”使 用 目 定 义 脚本 进行 测试 

仅 使 用 pgbench 内 置 的 测试 脚本 ， 会 有 很 多 限 
制 ， 例 如 不 能 更 真实 地 模拟 真实 世界 的 数据 量 ， 数 
据 结构 和 运行 的 查询 ， 还 有 其 他 的 局 限 性 。 
pgbench 文 持 从 一 个 文件 中 读 取 事务 脚本 来 蔡 换 默 
认 的 事务 脚本 ， 达 到 运行 自 定义 测试 场景 的 目的 。 
1. 创 建 测试 表 


代码 如 下 所 示 : 





CREATE TABLE tbl 
id SERIAL PRIMARY KEY, 
ival INT 
); 
\ 一 /一 JR 
2. 运 行 目 定义 脚本 


在 pgbench 命 令 中 使 用 -f 参 数 运行 白 定 义 的 脚 
本 ， 举 例如 下 : 








[postgres@pghost2 ~]$ echo "SELECT id,ival FROM tbl] ORDER BY i 
[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -f bench_scrir 
transaction type: bench_script_for_select.sql 


tps = 3448.671865 (including connections establishing) 
tps = 4097.559616 (excluding connections establishing) 











在 测试 过 程 中 ， 通 常会 使 用 变量 作为 SQL 语 人 句 
的 参数 传 入 。 在 脚本 中 可 以 使 用 类 似 于 psql 的 以 有 反 
矢 枉 开头 的 元 命令 和 内 建 函 数 定 义 变 量 。pgbench 
目 定 义 脚本 文 持 的 元 命令 有 : 


\sleep number[us|msls]: 每 执行 一 个 事务 暂停 一 
定时 间 ， 单 位 可 以 是 微 秒 、 毫 秒 和 秒 ， 如 果 不 写 音 
位 ， 默 认 使 用 秒 。 


\set varname expression: 用 于 设置 一 个 变量 ， 
元 命令 、 参 数 和 参数 的 值 之 间 用 空格 分 开 。 在 
pgbench 中 定义 了 一 些 可 以 在 元 命令 中 使 用 的 函 
数 ， 例 如 刚才 我 们 使 用 到 的 random (int，int) 函 
数 。 


例如 自 定义 一 个 脚本 ， 在 tbl 表 的 ival 字 上 段 中 插 
入 一 个 随机 数 ， 代 码 如 下 所 示 : 











[postgres@pghost2 ~]$ cat bench_script_ for_insert.sql 
\sleep 500 ms 

\set ival random(1, 100000) 

INSERT INTO tbl(ival) VALUES (:ival); 


运行 pgbench 使 用 该 脚本 进行 测试 ， 如 下 所 


和 修 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -f bench_scrip 
starting vacuum...end. 
transaction type: bench_script_for_insert.sql 


latency average = 501.291 ms 
number of transactions actually processed: 14846 





检查 测试 表 ， 如 下 所 未 : 





mydb=# SELECT COUNT(*) FROM tbl; 


count 
14846 
(1 row) 
mydb=# SELECT id,ival FROM tbl ORDER BY id DESC LIMIT 3; 
id | ival 


a 中 
14846 | 95018 
14845 | 88153 
14844 | 21896 

(3 rows) 





可 以 看 到 INSERT 成 功 地 插入 了 预期 的 值 ， 共 
14846 条 记录 。 从 pgbench 输 出 的 测试 报告 看 ， 平 均 
延迟 〈]latency average) 等 于 500 多 坚 秒 ， 成 功 执行 
了 14846 个 事务 。 


和 使 用 内 站 脚本 一 样 ， 可 以 在 -f 的 参数 值 后 加 
上 @ 符 号 再 加 上 权重 ， 以 不 同比 例 运行 多 个 目 定 义 


的 脚本 。 权 重 值 并 不 是 一 个 百分比 的 值 ， 而 是 一 个 
相对 固定 的 数值 ， 例 如 第 一 个 脚本 运行 3 次 ， 第 二 
个 脚本 运行 10 次 ， 下 面 是 一 个 在 多 个 测试 脚本 中 加 
入 权 草 值 选 项 进行 测试 的 例子 : 











[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -T 60 -f bench 
starting vacuum...end. 
transaction type: multiple scripts 
scaling factor: 1 
query mode: simple 
number of clients: 1 
number of threads: 1 
duration: 60 s 
number of transactions actually processed: 176523 
latency average = 0.340 ms 
tps = 2942.048332 (including connections establishing) 
tps = 2942.071422 (excluding connections establishing) 
SQL Script 1: bench_script_for_insert.sql 
- weight: 3 (targets 23.1% of total) 
- 40921 transactions (23.2% of total, tps = 682.016280) 
- latency average = 0.340 ms 
- latency stddev = 0.035 ms 
SQL Script 2: bench_script_for_insert.sql 
- weight: 10 (targets 76.9% of total) 
- 135602 transactions (76.8% of total, tps = 2260.032052) 
- latency average = 0.340 ms 
- latency stddev = 0.038 ms 





11.2.4 其 他 选项 





1. 人 模拟 的 客户 疹 数 量 和 连接 方式 


-C 参 数 指定 模拟 的 客户 端的 数量 ， 也 就 是 并 发 
数据 库 的 连接 数量 ， 默 认 值 为 1。-c 参 数 指定 是 否 为 





每 个 事务 创建 一 个 新 的 连接 ， 如 条 每 次 都 创建 新 的 
连接 则 性 能 会 明显 下 降 很 多 ， 测 试 连接 池 性 能 时 这 
个 参数 比较 有 用 。 


例如 模拟 4 个 客户 端 连接 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -c 4 -h pghost 
number of clients: 4 
latency average = 4.826 ms 


tps = 828.781956 (including connections establishing) 
tps = 894.930906 (excluding connections establishing) 





每 个 事务 创建 新 的 连接 ， 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -c 4 -C -h pgh 
number of clients: 4 
latency average = 19.627 ms 


tps = 203.797152 (including connections establishing) 
tps = 256.799857 (excluding connections establishing) 





如 果 在 多 线程 CPU 上 进行 测试 ， 还 可 以 指定 - 
参数 ， 将 模拟 的 客户 端 平均 分 配 在 各 线程 上 。 


2. 单 次 测试 的 运行 时 间 


单 次 测试 运行 的 时 间 由 两 种 测试 方式 决定 : 








. -T seconds 或 --time=seconds 参 数 用 来 设置 测 
试 的 秒 数 ; 例如 需要 测试 1 小 时 ， 在 测试 命令 行 中 
增加 参数 -了 T3600 即 可 。 


 -t transactions 或 --transactions 二 transactions 参 数 
和 定 每 个 客户 端 运行 多 少 个 国定 数量 的 事务 就 结 
本 次 测试 ， 默 认为 10 个 。 


这 两 种 方式 每 次 只 能 使 用 一 种 ， 要 么 指定 准确 
的 测试 时 间 ， 要 么 指定 一 共 执 行 多 少 个 事务 后 绽 
束 。 





如 果 这 两 个 参数 部 没有 指定 ， 那 么 pgbench 默 
认 使 用 第 二 种 方式 。 例 如 : 


[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -c 4 -h pghost 
number of clients: 4 


number of transactions actually processed: 40/40 





由 于 只 指定 了 4 个 客户 端 ， 没 有 指定 运行 时 间 
或 六 的 执行 事务 个 数 ， 所 以 测试 报告 中 “实际 执行 
成 功 的 事务 数 ” 和 “期 望 执 行 的 事务 数 ” 是 40。 


3. 用 固定 速率 运行 测试 脚本 


使 用 -R 可 以 用 固定 速率 执行 事务 ， 单 位 是 
TPS。 如 有 条 给 定 的 既定 速率 的 值 大 于 最 大 可 能 的 速 
率 ， 则 该 速 京 限 制 不 会 影响 结果 。 


4. 超 出 闪 值 的 事务 的 报告 


使 用 - 工 参数 设置 一 个 国 值 ， 对 超过 这 个 国 值 的 
事务 进行 独立 报告 和 计数 ， 单 位 是 坚 秒 。 例 如 ; 














[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -T 10 -L 1 -c 


number of transactions actually processed: 129234 
number of transactions above the 1.0 ms latency limit: 2226 (1 


从 上 面 的 报告 可 以 看 出 ， 超 过 1 至 秒 阔 值 的 事 
务 有 2226 个 ， 占 到 实际 执行 事务 总 数 的 1.722%。 
5. 输 出 选项 

pgbench 有 丰富 的 测试 结果 报告 的 输出 格式 。 

使 用 -d 参 数 可 以 输出 debug 信 息 ， 通 常 不 使 用 








~ 


皆 。o 


使 用 -P 参 数 ， 可 以 每 隔 一 段 时 间 输 出 一 次 测试 
结果 ， 例 如 每 隔 2 秒 输出 一 次 测试 结果 ， 如 下 所 
修 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -P 2 -T 7200 - 
progress: 2.0 s, 20448.0 tps, lat 0.390 ms stddev 0.160 


progress: 8.0 s, 25129.4 tps, lat 0.318 ms stddev 0.108 
progress: 10.0 s, 25064.1 tps, lat 0.319 ms stddev 0.116 





-| 或 --log 将 每 一 个 事务 执行 的 时 间 记 入 一 个 名 
称 为 “pgbench_log.n” 的 日 志文 件 中 ， 如 果 使 用 -j 参 
数 指 定 使 用 多 个 线程 ， 则 会 生成 名 称 
为 “pgbench_log.n.m” 的 日 志文 件 。 其 中 n 是 测试 时 
pgbench 的 PID，m 是 从 1 开始 的 线程 的 序号 ， 
pgbench_log 是 默认 的 日 志文 件 的 前 级， 如 果 和 希望 目 
定义 前 级 ， 使 用 --log-prefix prefix_name 选 项 。 例 
如 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pgbench -T 10 -1] --loo0 





测试 结束 之 后 ， 在 运行 pgbench 的 目录 会 生成 
custom.151940 和 custom2.151940.2 的 两 个 日 志文 
件 。 它 们 的 内 容 格 式 如 下 所 示 : 





client_id transaction no time script_no time epoch time us [ s 
5 17 1294 1 1515153407 106478 

4 15 322 0 1515152900 291756 

3 7 357 0 1515152900 291768 


4 16 334 0 1515152900 292090 





其 中 client id 为 客户 端的 序号 jd; transaction_no 
为 事务 的 序号 ;time 是 该 事务 所 花费 的 时 间 ， 单 位 
为 微 秒 ， 在 使 用 了 多 个 脚本 时 ，script_no 标 识 该 事 
务 使 用 的 是 哪个 脚本 ; time_epoch/time_us 是 一 个 
Unix 纪 元 格式 的 时 间 惟 以 及 一 个 显示 事务 完成 时 间 
的 以 微 秒 计 的 偏 移 量 (适合 于 创建 一 个 带 有 分 数秒 
的 ISO 8601 时 间 惟 ) 。 分 析 测 试 结 采 ， 最 好 能 够 将 
0 的 图 表 ， 通 第 可 以 售 助 电子 表 
格 。 














11.3 汪 间 小 2 


本 章 我 们 讨论 了 什么 是 基准 测试 ， 以 及 基准 测 
试 的 和 常见 使 用 场景 ， 确 立 了 测试 的 原则 ， 明 确 了 测 
试 结 果 的 衡量 方法 ， 痢 重 介绍 了 PostgreSQL 内 置 的 
测试 工具 pgbench， 详 细 介 绍 了 如 何 使 用 pgbench 的 
内 置 脚本 和 上 自 定 义 脚 本 进行 测试 ， 并 以 一 系列 简单 
的 例子 演示 了 pgbench 的 用 法 。pgbench 有 丰富 的 测 
试 组 合 方式 ， 熟 练 掌握 它 对 日 营 的 性 能 测试 、 压 力 
测试 等 工作 会 有 很 大 帮助 。 








第 12 章 ”物理 复制 和 包 辑 复制 


PostgreSQL 早 在 9.0 版 本 开始 文 持 物理 复制 ， 也 
可 称 为 流 复 制 (Streaming Replication) ， 通 过 流 复 
制 技术 ， 可 以 从 实例 级 复制 出 一 个 与 主 库 一 模 一 样 
的 从 库 〈 也 称 之 为 备 库 ) 。 举 个 简单 的 例子 ， 在 主 
机 pghostL 上 创建 了 一 个 PostgreSQL 实 例 ， 并 在 实例 
上 创建 多 个 数据 库 ， 通 过 流 复 制 技术 可 以 在 男 外 一 
台 主 机 如 pghost2 上 创建 一 个 热 备 只 读 PostgreSQL 实 
例 ， 我 们 通常 将 pghost1 上 的 数据 库 称 为 主 库 
(Primary Database 或 Master) ，pghost2 上 的 数据 库 
称 为 备 库 (Standby Database 或 Slave) ，pghost1 称 
为 主 节点 ，pghost2 称 为 备 节 点 。 尝 复制 同步 方式 有 
同步 、 有 异步 两 种 ， 如 果 主 节点 和 备 节 点 不 是 很 忙 ， 
通 第 异步 模式 下 备 库 和 主 库 的 延迟 时 间 能 控制 在 坚 
秒 级 ， 本 章 将 详细 介绍 两 种 同步 方式 的 差异 以 及 部 


为 一 种 复制 方式 为 逻辑 复制 (Logical 
Replication) ， 通 弟 也 称 之 为 选择 性 复制 ， 因 为 馆 
辑 复 制 可 以 做 到 基于 表 级 别 的 复制 ， 选 择 需 要 逻辑 
复制 的 表 ， 而 不 是 复制 实例 上 的 所 有 数据 库 的 所 有 
表 ， 物 理 复 制 是 基于 实例 级 的 复制 ， 只 能 复制 整个 
PostgreSQL 实 例 。PostgreSQL10 版 本 前 不 支持 内 置 
的 逻辑 复制 ， 通 常 使 用 第 三 方 逻 辑 复 制 工具 ， 比 如 

















Slony-I、Londiste、 pglogical 和 等 ，PostgreSQL10 拨 本 
开始 文 持 内 置 的 网 辑 复制 ， 这 一 新 特性 属 
PostgreSQL 10 重 量 级 新 特性 ， 本 章节 后 面 会 详细 介 
绍 旬 辑 复制 的 部 嗜 。 


WAL (Write-Ahead Logging) 日 志 记 录 数 据 库 
的 变化 ， 格 式 为 二 进 制 格 式 ， 当 主机 出 现 异常 断 电 
时 ， 如 果 WAL 文 件 已 经 写 入 成 功 ， 但 还 没 来 得 及 刷 
新 数据 文件 ， 当 数据 库 再 次 启动 时 会 根据 WAL 日 志 
文件 信息 进行 事务 前 深 ， 从 而 恢复 数据 库 到 一 致 性 
状态 。 尺 官 流 复 制 和 逻辑 复制 都 是 基于 WAL， 但 两 
者 有 本 质 不 同 ， 流 复制 是 基于 WAL 物 理 复制 ， 风 辑 
复制 是 基于 WAL 效 辑 解 析 ， 将 WAL 人 解析 成 一 种 清 
晰 、 易 于 理解 的 格式 。 


流 复制 和 逻辑 复制 主要 有 以 下 差异 : 


` 流 复 制 是 物理 复制 ， 其 核心 原理 是 主 库 将 预 
3 日 志 WAL 日 志 流 发 送 给 备 库 ， 备 库 接 收 到 WAL 日 
志 流 后 进行 重 做 ， 因 此 流 复 制 是 基于 WAL 日 志文 件 
的 物理 复制 。 远 辑 复 制 核心 原 ee 刘 
辑 复制 会 根据 预先 设置 好 的 规则 解析 WAL 日 志 ， 将 
WAL 二 进 制 文件 解析 成 一 定格 式 的 刘 辑 变化 信 言 息 ， 
比如 从 WAL 中 解析 指 人 人 人 的 DMI 逻辑 变化 
信息 ， 之 后 主 库 将 这 辑 变化 信息 发 送 给 备 库 ， 备 库 
收 到 WAL 逻 辑 解 析 信 息 后 再 应 用 日- 起: 














能 对 PostereSQL 实例 级 进行 复制 ， 
对 数据 库 表 级 进行 复制 。 
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` 流 复制 能 对 DDL 操 作 进 行 复制 ， 比 如 主 库 上 
新 建 表 、 给 已 有 表 加 减 字 段 时 会 自动 同步 到 备 库 ， 
而 丙 辑 复 制 主 库 上 的 DDL 操 作 不 会 复制 到 备 库 。 


“ 流 复 制 主 库 可 读 写 , 但 从 库 只 允许 查询 不 允 
许 写 入 ， 而 逻辑 复制 的 从 库 可 读 写 。 


` 流 复 制 要 求 PostereSQL 大 版 本 必须 一 致 ， 带 
辑 复制 支持 跨 PostereSQL 大 版 本 。 


本 章节 将 介绍 异步 流 复 制 部 著 、 同 步 法 复制 部 
萤 、 寞 步 流 复制 与 同步 流 复 制 性 能 测试 、 流 复制 监 
控 、 流 复制 主 备 切 换 、 延 返 备 库 〈Delayed 
Standbys) 、 同 步 复 制 优选 提交 〈Quorum 
Commit) 、 级 联 复制 、 流 复制 维护 生产 案例 、 逻 辑 
复制 。 


12.1 异步 流 复 制 


流 复 制 根据 数据 同步 方式 分 为 异步 流 复 制 和 同 
步 流 复制 ， 异 步 流 复制 是 指 主 库 上 提交 事务 时 不 需 
要 等 待 备 库 接收 WAL 日 志 流 并 写 入 到 备 库 WAL 日 
志文 件 时 便 返 回 成 功 ， 而 同步 流 复 制 相 反 ， 后 面 会 
详细 介绍 异步 流 复 制 、 同 步 流 复制 的 部 署 过 程 。 


这 一 小 节 先 介绍 PostgreSQL 异步 流 复制 的 部 
和 萤 ， 寞 步 流 复制 部 车主 要 有 两 种 方式 ， 一 种 方式 是 
找 贝 数据 文件 方式 ， 男 一 种 方式 是 通过 
pg_basebackup 命 令 行 工 具 ， 这 两 种 方式 的 绝 大 部 分 
部 普 步 骤 都 一 样 ， 只 是 数据 复制 的 方式 不 同 而 已 ， 
接 下 来 会 详细 介绍 。 


实验 环境 为 两 台 虚 拟 机 ， 其 体 信 息 如 表 12-1。 








表 12-1 流 复 制 实 验 环境 


主机 主机 名 IP 地 址 操作 系统 PostgreSQL 版 本 
节点 192.168.28.74 CentOS6.9 PostgreSQL10 
备 节 点 192.168.28.75 CentOS6.9 PostgreSQL10 


其 中 pghost1 为 主 节点 ，pghost2 为 备 节 点 ， 以 
下 先 介 绍 以 拷贝 数据 文件 方式 部 昔 流 复制 。 





12.1.1 以 找 风 数据 文件 方式 部 葡 流 复制 


关于 PostgreSQL 安 装 第 1 章 已 详细 介绍 ， 这 一 
节 仅 简单 介绍 PostgreSQL 安 装 ， 重 点 介绍 流 复 制 部 
午 ， 首 先 在 pghost1 和 pghost2 上 编译 安装 
PostgreSQL。 


在 pghost1 和 pghost2 上 创建 操作 系统 用 户 和 相 
天 目录 ， 如 下 所 示 : 





# groupadd postgres 

# Useradd postgres -g postgres 

# passwd postgres 

# mkdir -p /database/pg10/pg_root 

# mkdir -p /database/pg1i0/pg_tbs 

# chown -R postgres:postgres /database/pg10 


/database/pg10/pg_root 目 录 存 储 数据 库 系统 数 
据 文 件 ，/database/pg10mpg tbs 存储 用 户 目 定义 表 罕 
间 文 件 。 


设置 postgres 操 作 系 统 用 户 环 境 变 
量 ，/home/postgres/.bash_profile 文 件 添加 以 下 内 
容 : 


export PGPORT=1921 

export PGUSER=postgres 

export PGDATA=/database/pg10/pg_root 
export LANG=en_US.utf8 


export PGHOME=/opt/pgsql 

export LD_LIBRARY_PATH=$PGHOME/1ib:/1ib64:/usr/1ib64:/usr/1loca 
export PATH=$PGHOME/bin:$PATH:. 

export MANPATH=$PGHOME/share/man :$MANPATH 

alias rm=' rm - 工 ' 

alias 11='1ls -1h' 





以 上 内 容 可 根据 使 用 偏好 设置 环境 变量 。 
解压 并 编译 PostgreSQL 软 件 ， 如 下 所 示 : 





# tar jxvf postgresql-10.0.tar.bz2 
# cd postgresql-10.0 
# ./configure --prefix=/opt/pgsql 10.0 --with-pgport=1921 





configure 过 程 中 依赖 操作 系统 包 zlib、readline 
等 ， 如 果 configure 过 程 中 报 缺 少 相 关 依 赖 包 ， 通 过 
yum install 命 令 安 装 相 关 依 赖 包 即 可 ， 例 如 安装 
zlib、readline 系 统 包 ， 如 下 所 示 : 





# yum install zlib readline 





之 后 进行 编译 安 准 ， 如 下 所 示 : 





# gmake world 
# gmake install-world 





gmake world 表 示 编 译 有 所 有 能 编译 的 东西 ， 包 括 


文档 和 附加 模块 ， 而 gmake 命 令 不 会 安装 这 些 内 

容 ，gmake world 相 比 gmake 编 译 时 间 长 很 多 。 之 后 
通过 gmake install-world 命 令 安 装 PostgreSQL 软 件 到 
目录 /opt/pgsql_10.0， 安 装 后 /optpgsql_10.0/share 目 

录 下 生成 了 /doc 文 档 目 录 ， 并 

且 /optpgsql_10.0/share/extension 目录 下 生成 了 大 量 

的 扩展 模块 文件 ， 这 些 扩展 模块 提供 的 功能 能 够 丰 
证 PostgreSQL 特 性 ， 在 生产 环境 下 推荐 gmake world 
编译 安装 。 


PostgreSQL 软 件 安装 在 pgsql_10.0 目 录 ， 为 了 
便于 管理 ， 做 个 软 链接 ， 如 下 上 所 示 : 





# ln -s /opt/pgsql 10.0 /opt/pgsql 





编译 安装 PostgreSQL 软 件 过 程 使 用 的 是 root 操 
作 系 账号 ， 之 后 的 部 署 步 又 使 用 操作 系统 普通 账号 
postgres 妈 可， 在 pghostl1 上 使 用 postgres 系 统 账 号 执 
行 initdb 命 令 初始 化 数据 库 ， 如 下 所 示 : 





$ initdb -D /database/pg1i0/pg_root -E UTF8 --locale=C -U posto 


以 上 初始 化 数据 库 后 ，/database/pg10/pg_root 
目录 下 将 产生 系统 数据 文件 ， 之 后 配置 
$PGDATA/postgresql.conf， 设 置 以 下 人 参数: 


wal_ level = replica # minimal, replica, or logical 


archive mode = on # enables archiving; off, on, 
archive_command = '/bin/date' # command to use to archive a 
max_wal_senders = 10 # max number of walsender proc 
wal_ keep_segments = 512 # in logfile segments, 16MB ea 


hot_standby = on 


以 上 几 个 postgresql.conf 参 数 是 流 复 制 的 主要 参 
数 ， 其 他 可 选 参 数 没 有 列 出 。 


. Wal_level 参 数控 制 WAL 日 志 信 息 的 输出 级 
别 ， 有 minimal、 replica、 logical 三 种 模 式 ，minimal 
记录 的 WAL 日 志 信 息 最 少 ， 除 了 记录 数据 库 异 常 关 
闭 需 要 恢复 时 的 WAL 信 息 外 ， ee ;都 不 记 
录 ; teplica 记 录 的 WAL 信 息 比 minimal 信 息 多 些 ， 会 
记录 支持 WAL 归 档 、 复制 和 备 库 中 局 用 只 和 八 读 查询 等 
操作 a ys 言 息 ; logical 记 录 的 WAL 日 志 信 息 
最 多 ， 包 含 了 支持 逻辑 解析 1 隐 
辑 复制 这 种 模式 ， 本 章 后 面 会 绍 ) 所 需 的 
\7AL; 式 记 录 的 WAL 信 息 包 含 了 minimal 记 
录 的 信息 ，logical 模 式 记 录 的 WAL 信 息 包 含 了 replica 
记录 的 信息 ， 此 参数 默认 值 为 replica， 调 整 此 参数 
需 重 启 数 据 库 生效 ， 开 启 流 复 制 至 少 需 要 设置 此 参 
数 为 replica 级 别 。 


. atchive_mode 参 数控 制 是 否 启 用 归档 ，off 表 
示 不 启用 归档 ，on 表 示 启 用 归档 并 使 用 


atchive_command 参 数 的 配置 命令 将 WAL 日志 归档 
到 归档 存储 上 ， 此 参数 设置 后 需 重 忆 数据库 生效 ， 
这 里 通常 设置 成 on。 


atchive_command 参 数 设 置 WAL 归 档 命 令 ， 
可 以 将 WAL 归 档 到 本 机 目录 ， 也 可 以 归档 到 远程 其 
他 主机 上 ， 由 于 流 复制 的 配置 并 不 一 定 需要 依赖 配 
置 归档 命令 ， 我 们 将 归档 命令 暂且 设置 成 伪 归 档 命 
令 /bin/date， 后 期 如 果 需 要 打开 归档 直接 配置 归档 
命令 即 可 ， 第 13 章 备份 与 恢复 章节 会 详细 介绍 此 参 
数 的 配置 。 


` max_wal_senders 参 数控 制 主 库 上 的 最 大 WAL 
发 送 进 程 数 ， 通 过 pg_basebackup 命 令 在 主 库 上 做 基 
准备 份 时 也 会 消耗 WAL 进 程 ， 此 参数 设置 不 能 比 
max_conhnhections 参 数值 高 ， 默 认 值 为 10， 一 个 流 复 
制备 库 通常 只 需要 消耗 流 复制 主 库 一 个 WAL 发 送 进 
程 。 





”WwWal_keep_segments 参数 设置 主 库 pe_wal 目 录 
保留 的 最 小 WAL 日 志文 件数 ， 以 便 备 库 落后 主 库 时 
可 以 通过 主 库 保 留 的 WAL 进 行 筷 回 ， 这 个 参数 设置 
得 越 大 ， 理 论 上 备 库 在 异常 断 开 时 追 平 主 库 的 机 康 
越 大 ， 如 果 归 档 存 储 空 间 充 足 ， 建 议 将 此 参数 配置 
得 大 些 ， 由 于 默认 情况 下 每 个 WAL 文件 为 
16MB (编译 时 可 通过 --with-wal-segsize 参 数 设置 


WAL 文 件 大 小 ) ， 因 此 pg_wal 目 录 大 概 占用 空间 为 
wal_keep_segments 参 数值 X16MB， 这 里 为 
512X160MB=8GB， 实 际 情况 下 pg_wal 目 孙 下 的 WAL 
文件 数 会 比 此 参数 的 值 稍 大 些 。 





* hot_standby 参数 控制 数据 库 恢复 过 程 中 是 否 
启用 读 操 作 ， 这 个 参数 通常 用 在 流 复制 备 库 ， 开 启 
此 参数 后 流 复 制备 库 支 持 只 读 SQL， 但 备 库 不 支持 
写 操作 ， 主 库 上 也 设置 此 参数 为 on。 


以 上 是 流 复 制 配 置 过 程 中 主要 的 postgresql.conf 
参数 ， 其 他 参数 没有 列 出 ， 主 库 和 备 库 的 
postgresql.conf 配 置 建 议 完 全 一 致 。 





配置 主 库 的 pg_hba.conf 文 件 ， 添 加 以 下 内 容 : 


# replication privilege. 
host replication repuser 192.168.28.74/32 n 
host replication repuser 192.168.28.75/32 n 


这 里 为 什么 配置 两 条 pg_hba.conf 策 略 ? 因为 主 
库 和 备 库 的 角色 不 是 静止 的 ， 它 们 的 角色 是 可 以 互 
换 的 ， 比 如 做 一 次 主 备 切换 后 角色 束 发 生 了 变化 ， 
因此 建议 主 库 、 备 库 的 pg_hba.conf 配 置 完 全 一 致 。 


之 后 pghost1 启 动 数据 库 ， 如 下 所 示 











[postgres@pghost1 ~]$ pg_ct]l start 


使 用 超级 用 户 postgres 登 录 到 数据 库 创建 流 复 
制 用 户 repuser， 流 复制 用 户 需 要 有 REPLICATION 
权限 和 LOGIN 权 限 ， 如 下 所 示 : 





CREATE USER repuser 
REPLICATION 
LOGIN 
CONNECTION LIMIT 5 
ENCRYPTED PASSWORD 're12a345'; 


建议 为 流 复制 创建 专门 的 法 复制 用 户 。 


以 上 完成 了 主 库 上 的 配置 ， 接 下 来 热 备 生成 一 
个 备 库 ， 制 作 备 库 过 程 中 主 库 仍 然 可 恋 写 ， 不 影 啊 
主 库 上 的 业务 ， 以 postgres 超 级 用 户 执 行 以 下 命 





postgres=# SELECT pg_start_ backup('francs_bk1"'); 
pg_start_backup 


0/4000060 
(1 row) 


pg_start_backup〈“) 函数 在 主 库 上 友 起 一 个 在 
线 备份 ， 命 令 执 行 成 功 后 ， 将 数据 文件 找 贝 到 备 市 
点 pghost2， 如 下 所 示 : 








$ tar czvf pg_root,tar.gz pg_root --exclude=pg_root/pg_wal 
$ scp pg_root.tar.gz postgres@192.168.28.75:/database/pg10 


pg_wal 目 录 不 是 必须 复制 的 ， 如 果 pg_wal 目 录 
下 文件 比较 多 ， 压 缩 包 时 可 以 排除 这 个 目录 ， 以 节 
省 数据 找 贝 时 间 ， 数 据 找 贝 到 备 市 点 后 ， 备 闻 点 的 
pg_wal 目 录 和 需要 手工 创建 ， 以 上 只 是 捞 风 了 pg_root 
系统 数据 目录 ， 如 采 有 另外 的 表 衬 间 目 录 也 需要 找 
贝 。 








之 后 在 pghost2 解 压 文件 ， 如 下 上 所 示 : 


$ tar xvf pg_root.tar .gz 


文件 措 贝 到 备 节 点 后 ， 在 主 库 上 执行 以 下 命 





心 


postgres=# SELECT pg_stop_backup() ， 
NOTICE: pg_stop_backup complete, all required WAL segments ha 
pg_stop_backup 


0/2000130 
(1 row) 


以 上 命令 表示 完成 在 线 备份 ， 但 备 库 上 仍然 需 
要 做 一 些 配置 ， 之 后 配置 pghost2 主 机 上 的 
recovery.conf， 此 配置 文件 提供 了 数据 库 恢复 相关 


的 配置 参数 ， 这 个 文件 默认 在 $PGDATA 有 目录 下 并 
不 人 存在， 可 以 在 软件 目录 中 找到 这 个 模板 ， 并 复制 
到 $PGDATA 上 目录， 如 下 所 示 : 


$ cp $PGHOME/share/recovery.conf.sample $PGDATA/recovery.conf 


在 recovery.conf 中 配置 以 下 参数 : 


recovery_target timeline = 'latest' 


standby_mode = on 
primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser 


* fecovery_target_timeline 参 数 设 置 恢复 的 时 间 
线 (timeline) ， 默 认 情况 下 是 恢复 到 基准 备份 生成 
时 的 时 间 线 ， 设 置 成 latest 表 示 从 备份 中 恢复 到 最 近 
的 时 间 线 ， 通 常 流 复制 环境 设置 此 参数 为 latest， 复 
杂 的 恢复 场景 可 将 此 参数 设置 成 其 他 值 。 


standby_mode 参 数 设 置 是 否 居 用 数据 库 为 备 
库 ， 如 果 设 置 成 on， 备 库 会 不 停 地 从 主 库 上 获取 
WAL 日 志 流 ， 直 到 获取 主 库 上 最 新 的 WAL 日 志 流 。 


primary_conninfo 参 数 设 置 主 库 的 连接 信息 ， 
这 里 设置 了 主 库 IP、 端 口 、 用 户 名 信息 ， 但 没有 配 
置 明文 密 码 ， 在 连接 串 中 给 出 数据 库 客 码 不 是 好 习 
惯 ， 建 议 将 窗 码 配置 在 隐藏 文件 ~/.pgpass 文 件 中 。 


配置 ~/.pgpass 隐 基文 件 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ touch .pgpass 
[postgres@pghost2 ~]$ chmod 0600 .pgpass 


.pgpass 文 件 默 认 情 况 下 不 存在 ， 需 要 手动 创建 
并 设置 好 0600 权 限 。 之 后 给 .pgpass 文 件 添加 以 下 内 
容 : 


192.168.28.74:1921:replication:repuser:re12a345 
192.168.28.75:1921:replication:repuser:re12a345 


.pgpass 文 件 内 容 分 五 个 部 分 ， 分 别 为 了 卫 、 闫 
口 、 数 据 库 名 、 用 户 名 、 密 码 ， 用 冒号 分 也， 设置 
后 ，repuser 用 户 可 以 免 密 人 码 直 接 登 录 数 据 库 。 之 后 
在 pghost2 上 启动 从 库 即 可 ， 如 下 所 示 : 








$ pg_ctl1 start 


如 果 此 步 没 报错 ， 并 且 主 库 上 可 以 查看 到 
WAL 发 送 进 程 ， 同 时 备 库 上 可 以 看 到 WAL 接 收 进 
程 说 明 流 复制 配置 成 功 ， 碍 看 主 库 上 的 WAL 发 送 进 
程 ， 如 下 所 示 : 


postgres 28575 28475 © 16:41 ? 00:00:00 postgres: wal 





查看 备 库 上 的 WAL 接 收 进程 ， 如 下 所 示 : 


postgres 15449 15331 0 16:41 ? 00:00:00 postgres: wal 


接着 在 主 库 上 创建 一 个 测试 表 并 插入 数据 ， 如 
J: 





postgres=# CREATE TABLE test_sr(id int4); 
CREATE TABLE 

postgres=# INSERT INTO test_sr VALUES (1); 
INSERT © 1 


在 备 奋 上 验证 数据 是 否 已 同步 ， 如 下 所 示 : 


postgres=# SELECT * FROM test_sr; 
id 


1 
(1 row) 


在 主 库 上 创建 一 张 表 后 ， 在 备 库 上 立刻 就 能 查 
询 到 了 ， 值 得 一 提 的 是 ， 备 库 上 postgresdql.conf 的 
hot_standby 参 数 需要 设置 成 on 才 文 持 查 询 操作 ， 此 
参数 调整 后 需 重 局 数据 库 生 效 ， 如 下 上 所 示 。 








hot_standby = on # "off" disallows quer 


如 果 此 参数 设置 成 of， 通 过 psql 连 接 数 据 库 时 
会 殷 出 以 下 错误 : 


[postgres@pghost2 ~]$ psql postgres postgres 
psql: FATAL: the database system is starting up 





以 上 信息 显示 数据 库 在 恢复 中 ， 不 允许 连接 数 
据 库 也 不 允许 执行 查询 。 


以 上 是 异步 流 复 制 部 署 的 所 有 过 程 ， 虽 然 本 小 
节 内 容 有 些 多 ， 但 总 体 来 说 流 复 制 配置 并 不 复杂 ， 
读者 在 配置 过 程 中 如 过 错误 ， 多 查看 
$sPGDATA/pg_log 数 据 库 日 志 ， 根 据 数 据 库 日 志 报 
错 信 息 进 行 问题 排查 。 











12.1.2 ”以 pg_basebackup 方 式 部 悍 流 复制 


上 一 人 小节 介 绍 了 以 拷贝 数据 文件 的 方式 部 署 流 
复制 ， 这 一 小 节 将 介绍 以 pg_basebackup 方 式 部 署 流 
复制 ， 通 过 上 一 小 节 的 介绍 ， 部 署 流 复制 备 库 的 数 
据 复 制 环节 主要 包含 三 个 步 又 。 


1) pg_start_ backup ('francs_bk1') ; 


2) 拷贝 主 节点 $9PGDATA 数 据 文件 和 表 空 间 文 
件 到 备 节 反 ; 


3) pg_stop_backup () 。 


以 上 三 个 步骤 可 以 合成 一 步 完 成 ，PostgreSQL 
提供 内 置 的 pg_basebackup 命 令 行 工具 文 持 对 主 库 发 
起 一 个 在 线 基 准备 份 ， 并 目 动 进入 备份 模式 进行 数 
据 库 基准 备份 ， 备 份 完成 后 目 动 从 备份 模式 退出 ， 
不 需要 执行 额外 的 pg_start_backup 〈() 和 
pg&_stop_backup 〈) 命令 显 式 地 声明 进入 备份 模式 
和 退出 备份 模式 ，pg_basebackup 工 具 是 对 数据 库 实 
例 级 进行 的 物理 备份 ， 因 此 这 个 工具 通常 作为 备份 
工具 对 据 库 进行 基准 备份 。 


pg_basebackup 工 具 发 起 备份 需要 超级 用 户 权 限 
或 REPLICATION 权 限 ， 注 意 max_wal_senders 参 数 
配置 ， 因 为 pg_basebackup 工 具 将 消耗 至 少 一 个 
WAL 发 送 进 程 。 本 市 将 演示 通过 pg_basebackup 工 
具 部 署 异 步 流 复 制 ， 之 前 已 经 在 pghost2 上 部 著 了 一 
个 备 库 ， 我 们 先 将 这 个 备 库 删 除 ， 之 后 通过 
pg_basebackup 工 具 重 新 做 一 次 备 库 ， 删 除 pghost2 
上 的 备 库 只 需要 先 停 备 库 之 后 删除 备 库 数 据 库 数 据 
文件 即 可 ， 如 下 所 示 : 








$ pg_ctl stop -m fast 

waiting for server to shut down.... done 
server stopped 

$ rm -rf /database/pg10/pg_root 

$ rm -rf /database/pg10/pg_tbs 


之 后 在 pghost2 使 用 pg_basebackup 工 具 做 一 个 
基准 备份 ， 如 下 所 示 : 


$ pg_basebackup -D /database/pg10/pg_root -Fp -Xs -v -P -h 192 


-U repuser 


pg_basebackup : 
pg_basebackup : 
pg_basebackup : 
pg_basebackup : 


initiating base backup, waiting for checkpoint 
checkpoint completed 

write-ahead log start point: 1/B9000028 on time 
starting background WAL receiver 


7791508/7791508 kB (100%), 2/2 tablespaces 


pg_basebackup: 
pg_basebackup : 
pg_basebackup : 


write-ahead log end point: 1/B90039E0 
waiting for background process to finish strean 
base backup completed 


从 以 上 日 志 信 息 看 出 pg_basebackup 命 令 首先 对 
数据 库 做 一 次 checkpoint， 之 后 基于 时 间 点 做 一 个 
全 库 基 准备 份 ， 全 备 过 程 中 会 拷贝 $PGDATA 数 据 
文件 和 表 空 间 文 件 到 备 库 节 点 对 应 目录 ， 
pg_basebackup 主 要 选项 解释 如 下 : 





-DD 参数 表示 指定 备 节点 用 来 接收 主 库 数据 的 
目标 路 径 ， 这 里 和 主 库 保持 一 致 ， 依 然 
是 /database/pg10/pg_root 目 孙 。 


` -下 参数 指定 pg_basebackup 命 令 生 成 的 备份 数 
据 格 式 ， 支 持 两 种 格式 ，P (plain) 格式 和 t (tat) 
格式 ，P (plain) 格式 是 指 生成 的 备份 数据 和 主 库 
上 的 数据 文件 布局 一 样 ， 也 就 是 说 类 似 于 操作 系统 
命令 将 数据 库 $PGDATA 系 统 数 据 文件 、 表 空间 文 


件 完 全 捞 贝 到 备 节 点 ; t (tar) 格式 是 指 将 备份 文 
件 打 个 taf 包 并 存储 在 指定 目录 里 ， 系 统 文 件 被 打包 
成 base.tar， 其 他 表 空 间 文 件 被 打包 成 oid.tar， 其 中 
OID 为 表 空 间 的 OID。 


 - 义 参 数 设置 在 备份 的 过 程 中 产生 的 WAL 日 志 
包含 在 备份 中 的 方式 ， 有 两 种 可 选 方式 , f (fetch) 
和 s (stteam) ，f (fetch) 是 指 WAL 日 志 在 基 准备 
份 完成 后 被 传送 到 备 节 点 ， 这 时 主 库 上 的 
wal_keep_segments 参 数 需 要 设置 得 较 大 ， 以 免 备 份 
过 程 中 产生 的 WAL 还 没 发 送 到 备 节 点 之 前 被 主 库 履 
盖 掉 ， 如 果 出 现 这 种 情况 创建 基准 备份 将 会 失败 ， 
f (fetch) 方式 下 主 库 将 会 启动 一 个 基准 备份 WAL 
发 送 进程 ;s (stteam) 方式 中 主 库 上 除了 启动 一 个 
基准 备份 WAL 发 送 进程 外 还 会 额外 启动 一 个 WAL 发 
送 进程 用 于 发 送 主 库 产 生 的 WAL 增 量 日 志 流 ， 这 种 
方式 避免 了 f (fetch) 方式 过 程 中 主 库 的 WAL 被 履 
盖 掉 的 情况 ， 生 产 环 境 流 复制 部 署 推荐 这 种 方式 ， 
特别 是 比较 繁忙 的 库 或 者 是 大 库 。 





. -V 参 数 表 示 居 用 vetbose 模 式 ， 命 令 执 行 过 程 
中 打印 出 各 阶段 的 上 日志， 建议 启用 此 参数 ， 了 解 命 
令 执 行 到 哪个 阶段 。 


: -P 参 数 显 示 数 据 文件 、 表 空间 文件 近似 传输 
百分比 ， 由 于 执行 pg_basebackup 命 令 过 程 中 主 库 数 


据 文件 会 变化 ， 因 此 这 只 是 一 个 估算 值 ; 建议 启用 
此 选项 ， 了 解数 据 复制 的 进度 。 


-h、-p、-U 参 数 为 数据 库 连 接 通 用 参数 ， 不 再 
解释 ， 以 上 只 是 pg_basebackup 命 令 主 要 选项 ， 其 他 
选项 读者 可 俘 看 手册 
https:/www.postgresql.org/docs/10/static/app- 
pgbasebackup.html 。 


pg_basebackup 命 令 执行 成 功 后 ， 配 置 备 库 
recovery.conf， 之 前 已 将 此 文件 备份 到 家 目录 ， 从 
家 目录 将 此 文件 复制 到 $PGDATA 目 录 下 即 可 ， 如 
下 所 示 : 


$ cp ~/recovery.conf $PGDATA 


之 后 在 pghost2 上 启动 备 库 ， 如 下 所 示 : 


$ pg_ctl1 start 


这 时 备 市 点 上 已 经 有 了 WAL 接 收 进程 ， 同 时 
主 市 反 上 已 经 有 了 WAL 戊 送 进程 ， 表 示 尝 复制 工作 
正常 。 


12.1.3” 俘 看 沉 复 制 同步 方式 





异步 流 复 制 部 普 完 成 后 ， 可 通过 
pg_stat_replication 系 统 视图 的 sync_state 字 段 查 看 流 
复制 同步 方式 ， 如 下 所 示 : 


postgres=# SELECT usename,application name,client _addr,sync_st 
FROM pg_stat_replication ， 
usename | application name | client addr | sync_state 
ey pT Ee A 
repuser | walreceiver | 192.168.28.75 | async 
(1 row) 


pg_stat_replication 视 图 显示 主 库 上 WAL 友 送 进 
程 信息 ， 主 库 上 有 多 少 个 WAL 发 送 进 程 ， 此 视图 就 
对 应 多 少 条 记录 ， 这 里 主要 看 sync_state 字 段 ， 
sync_state 字 段 的 可 选项 包括 : 


- async: 表示 备 库 为 异步 同步 方式 。 








”potential : 表示 备 库 当前 为 异步 同步 方式 ， 
如 果 当 前 的 同步 备 库 宕 机 后 ， 异 步 备 库 可 升级 成 为 
同步 备 库 。 


“ SyNnc. 当前 备 库 为 同 步 方式 。 
. quofum: 此 特性 为 PostereSQL10 版 本 新 增 特 


性 ， 表 示 备 库 为 quorum standbys 的 候选 ， 本 章 后 面 
会 详细 介绍 这 个 新 特性 。 


以 上 查询 结果 sync_state 字 上 段 值 为 async， 表 示 
主 备 数据 复制 使 用 异步 方式 。 


12.2 ”同步 流 复制 


异步 流 复 制 指 主 库 上 提交 事务 时 不 需要 等 待 备 
库 接 收 并 写 入 WAL 日 志 时 便 返 回 成 功 ， 如 果 主 库 异 
常 宕 机 ， 主 库 上 已 提交 的 事务 可 能 还 没 来 得 及 发 送 
给 备 库 ， 就 会 造成 备 库 数据 丢失 ， 备 库 丢 失 的 数据 
量 和 和 WAL 复制 延迟 有 关 ，WAL 复 制 延 迟 越 大 ， 备 
库 上 丢失 的 数据 量 越 大 。 


同步 流 复 制 在 主 库 上 提交 事务 时 需 等 竺 备 库 接 
收 并 WAL 日 志 ， 当 主 库 至 少 收 到 一 个 备 库 发 回 的 确 
认 信 息 时 便 返 回 成 功 ， 同 步 流 复制 确保 了 至 少 一 个 
备 库 收 到 了 主 库 发 送 的 WAL 日 志 ， 一 方面 保障 了 数 
拓 的 完整 性 ， 男 一 方面 增加 了 事务 啊 应 时 间 ， 因 此 
人 
量 低 。 


这 一 人 小节 将 介绍 同步 流 复制 的 部 着 ， 同 步 流 复 
制 的 部 普 与 异步 流 复 制 部 普 过 程 没 有 太 大 过 询 ， 只 
是 postgresql.conf 和 recovery.conf 配 置 文件 的 几 个 参 
数 圾 要 额外 配置 。 




















12.2.1 ”synchronous_commit 参 数 详解 








在 介绍 同步 流 复 制 部 普 之 前 移 来 介绍 
synchronous_commit 参 数 ，synchronous_commit 参 数 
是 流 复 制 配置 中 的 重点 参数 ， 理 解 它 的 含义 能 够 更 
好 地 理解 同步 流 复 制 、 异 步 流 复制 的 工作 原理 。 








Synchronous_commit 人 参数 是 postgresql.conf 配 置 
文件 中 WAL 相 关 配 置 参数 ， 是 指 当 数据 库 提交 事务 
时 是 人 否 需 要 等 待 WAL 日 志 写 入 硬盘 后 才 癌 客户 端 返 
回 成 功 ， 此 参数 可 选 值 为 on、off、local 
remote_apply、remote_write， 要 理解 每 个 参数 的 侣 
义 可 能 没 那 么 容易 ， 这 里 尽 可 能 详细 解释 这 些 选项 
值 的 含义 ， 分 单 实例 和 流 复 制 环境 介绍 。 


场景 一 : 单 实例 环境 


. on: 当 数 据 库 提交 事务 时 ，WAL 先 写 入 
WAL BUFFER 再 写 入 WAL 日 志文 件 ， 设 置 成 on 表示 
提交 事务 时 需 等 待 本 地 WAL 写 入 WAL 日志 后 才 向 客 
户 端 返回 成 功 ， 设 置 成 on 非常 安全 ， 但 数据 库 性 能 
有 损耗 。 


` o 任 : 设置 成 off 表 示 提 交 事 务 时 不 需 等 待 本 
地 WAL BUFFER 写 入 WAL 日 志 后 向 客户 端 返回 成 
功 ， 设 置 成 o 任 时 也 不 会 对 数据 库 带 来 风险 ， 虽 然 当 
数据 库 宕 机 时 最 新 提交 的 少量 事务 可 能 丢失 ,但 数 
据 库 重启 后 会 认为 这 些 事务 异常 中 止 ， 设置 成 off 能 


够 提升 数据 库 性 能 ， 因 此 对 于 数据 准确 性 没有 非常 
精确 要 求 同 时 追求 数据 库 性 能 的 场景 建议 设置 成 
off。 


. local: local 的 含义 和 on 类 似 ， 表 示 提 交 事 务 
时 需 等 待 本 地 WAL 写 入 后 才 向 客户 端 返回 成 功 。 


场景 二 : 流 复 制 环境 


. temote_wtite: 当 流 复制 主 库 提交 事务 时 ， 需 
等 待 备 库 接收 主 库 发 送 的 WAL 日 志 流 并 写 入 备 节点 
操作 系统 缓存 中 ， 之 后 向 客户 端 返回 成 功 ， 这 种 情 
况 下 备 库 实例 出 现 异 常 关 闭 时 不 会 有 已 传送 的 WAL 
日 志 丢 失 风 险 ， 但 备 库 操 作 系 统 异 常 宕 机 就 有 已 传 
送 的 WAL 丢 失 风险 了 ， 此 时 WAL 可 能 还 没完 全 写 入 
备 节 点 WAL 文 件 中 ， 简 单 地 说 remote_wtite 表 示 本 
地 WAL 已 落 盘 ， 备 库 的 WAL 还 在 备 库 操作 系统 缓存 
中 ， 也 就 是 说 只 有 一 份 持久 化 的 WAL， 这 个 选项 带 
来 的 事务 响应 时 间 较 低 。 


. on: 设置 成 on 表示 流 复制 主 库 提交 事务 时 ， 
需 等 待 备 库 接收 主 库 发 送 的 WAL 日 志 流 并 写 入 WAL 
文件 ， 之 后 才 向 客户 端 返回 成 功 ， 简 单 地 说 on 表示 
本 地 WAL 已 落 盘 ， 备 库 的 WAL 也 已 落 盘 ， 也 就 是 说 
有 两 份 持 久 化 的 WAL， 但 备 库 此 时 还 没有 完成 重 
做 ， 这 个 选项 带 来 的 事务 响应 时 间 较 高 。 


“ remote_apply: 表示 表示 流 复 制 主 库 提 交 事 
务 时 ， 需 等 待 备 库 接收 主 库 发 送 的 WAL 并 写 入 WAL 
文件 ， 同 时 备 库 已 经 完成 重 做 ， 之 后 才 向 客户 端 返 
Re ， 简 单 地 说 remote_apply 表 示 本 地 WAL 已 落 

， 备 库 WAL 已 落 盘 并 且 已 完成 重 做 ， 这 个 设置 保 
证 拥有 两 份 持 久 化 的 WAL， 同 时 备 库 也 完成 了 重 
做 ， 这 个 选项 带 来 的 事务 响应 时 间 最 高 。 





12.2.2 ”配置 同步 流 复制 


备 库 recovery.conf 配 置 文 件 设置 以 下 参数 ， 如 
下 所 示 : 


primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser 


primary_conninfo 参 数 谎 加 application_name 选 
项 ，application_name 选 项 指定 备 节 点 的 别名 ， 主 库 
postgresql.confHRjsynchronous_standby_names 参 数 可 
引用 备 库 application_name 选 项 设置 的 值 ， 这 里 设置 
成 node2 。 


主 库 上 postgresql.conf 配 置 文件 设置 以 下 参数 ， 
其 他 参数 和 异步 流 复 制 配置 一 致 。 


synchronous_commit = on 或 remote_apply 


Synchronous_standby_names = 'node2' 





wal_level 配 置 也 和 异步 流 复 制 配置 一 致 ， 设 置 
成 replica 或 logical 即 可 。 


` Synchtonous_commit 参 数 配置 成 on 或 
remote_apply， 通 常设 置 成 on， 表 示 有 两 份 持 久 化 
的 WAL 日 志 。 


synchronous_standby_names 参 数 配 置 同步 复 
制 的 备 库 列表 ， 可 以 配置 多 个 同步 备 库 ， 实 验 环境 
为 一 主 一 备 环境 ， 因 此 这 里 设置 成 hode2， 这 个 值 
必须 和 同步 备 库 fecovety.conf 文 件 的 
ptimaty_conninfo 参 数 的 application_name 选 项 设置 值 
3 


配置 完成 后 ， 主 库 执 行 以 下 命令 使 配置 生效 : 


[postgres@pghost1 ~]$ pg_ctl1 reload 
server signaled 


wal_level 参 数 调 整 后 需 重 局 数据 库 生 效 ， 
synchronous_commit 和 synchronous_standby_names 
参数 调整 后 不 需要 重 司 数据 库 生 效 ， 只 需 执行 
pg_ctl reload 命 令 重 新 载 入 配置 文件 即 可 。 由 于 配置 
异步 流 复制 时 wal_level 已 经 配置 成 replica， 因 此 不 








需要 再 调整 此 参数 配置 。 
备 库 调整 了 recovery.conf 参 数 后 需 重 启 生 效 ， 
pghost2 上 重启 数据 库 ， 如 下 所 示 : 





[postgres@pghost2 ~]$ pg_ct]l restart -m fast 
waiting for server to shut down.... done 


server stopped 





之 后 查看 主 库 是 否 建立 了 WAL 发送 进程 ， 备 
库 上 是 否 建 立 了 WAL 接 收 进 程 ， 如 果 有 异常 ， 查 看 
数据 库 日 志 排 查 错误 。 


主 库 上 但 看 复制 状态 ， 如 下 所 示 : 


postgres=# SELECT usename,application name,client addr,sync_st 





FROM pg_stat_replication ， 
usename | application name | client addr | sync_state 
和 Te 
| 192.168.28.75 | Sync 


repuser | node2 
(1 row) 


此 时 pg_stat_replication 视 图 的 sync_state 字 上 段 已 
变 成 了 Sync 状态 ，sync 表 示 主 库 与 备 库 之 间 采 用 同 
步 复 制 方式 ， 以 上 束 是 同步 流 复 制 主要 配置 步骤。 








12.2.3 ”同步 流 复制 的 典型 < 陷阱” 





同步 流 复 制 模式 中 ， 由 于 主 库 提 交 事 务 时 需 等 





待 至 少 一 个 备 库 接 收 WAL 并 返回 确认 信息 后 主 库 才 
向 客户 端 返 回 成 功 ， 一 方面 保障 了 数据 的 完整 性 ， 
另 一 方面 对 于 一 主 一 备 的 同步 流 复制 环境 存在 一 个 
典型 的 “陷阱 >， 有 具体 表现 为 如 果 备 库 宕 机 ， 主 库 上 
的 写 操作 将 处 于 等 待 状态 。 接 下 来 在 刚 部 署 完 成 的 
同步 流 复制 环境 做 个 测试 ， 环 境 为 一 主 一 备 ， 
pghost1 上 的 数据 库 为 主 库 ，pghost2 上 的 数据 库 为 
同步 备 库 。 


先 把 备 库 个 挥 模拟 备 库 故障 ， 如 下 所 示 : 














[postgres@pghost2 ~]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 





之 后 妾 试 在 主 库 上 执行 读 操 作 ， 如 下 所 示 : 





postgres=# SELECT * FROM test_sr LIMIT 1; 
id 


1 
(1 row) 








同步 备 库 宕 机 后 ， 主 库 上 的 得 询 操作 不 受 影 
咯 。 


之 局 在 主 库 上 上 笑 试 熏 入 一 条 记录 ; 如 下 所 示 : 





postgres=# INSERT INTO test_sr(id) VALUES (5); 
- -注意 这 里 命令 被 阻塞 。 











这 时 主 库 上 的 INSERT 语 句 一 直 处 于 等 待 状 
态 ， 也 就 是 说 同步 备 库 宕 机 后 ， 主 库 上 的 读 操作 不 
受 影 响 ， 写 操作 将 处 于 阻塞 状态 ， 因 为 主 库 上 的 事 
务 需 收 到 人 至少 一 个 备 库 接收 WAL 后 的 返回 信息 才 会 
向 客户 端 返回 成 功 ， 而 此 时 备 库 已 经 停 掉 了 ， 主 库 
上 收 不 到 备 库 发 来 的 确认 信息 ， 如 果 是 生产 库 ， 将 
对 生产 系统 带 来 严重 影 啊 。 


通常 生产 系统 一 主 一 备 的 情况 下 不 会 采用 同步 
复制 方式 ， 因 为 备 库 宕 机 后 同样 对 生产 系统 造成 严 
重 影 响 ，PostgreSQL 文 持 一 主 多 从 的 流 复 制 架 构 ， 
比如 一 主 两 从 ， 将 其 中 一 个 备 库 设 为 同步 备 库 ， 态 
一 个 备 库 设 为 异步 备 库 ， 当 同步 备 库 宕 机 后 异步 
库 升 级 为 同步 备 库 ， 同 时 主 库 上 的 读 写 操作 不 受 影 
啊 ，12.7 节 详细 介绍 了 一 主 多 从 的 场景 。 























12.3 单 实 例 、 异 步 流 复制 、 同 步 流 复制 性 
能 测试 


根据 PostgreSQL 有 异步 流 复 制 、 同 步 流 复 制 原理 
分 析 ， 同 步 流 复制 方式 的 事务 啊 应 时 间 比 异步 流 复 
制 方式 的 啊 应 时 间 高 ， 推 测 同步 流 复 制 的 主 库 性 能 
损耗 比 异 步 流 复制 要 大 些 ， 实 际 情况 如 何 呢 ? 和 
小 节 将 通过 一 一 个 读 场 景 和 一 个 写 场 景 对 单 实 例 、 
步 流 复 制 、 同步 流 复制 进 和 本 压力 测试 ， 使 用 的 压力 
测试 工具 为 pgbench， 测 试 机 配置 为 4 逻辑 核 CPU、 
8GB 内 存 的 虚拟 机 。 


单 实例 主 库 的 postgresql.conf 主 要 参数 如 下 所 
人 外 : 


wal_ level = replica # minimal, replica, or logical 
synchronous_ commit = off # synchronization level; 


异步 流 复制 主 库 的 postgresql.conf 主 要 参数 如 下 


wal_ level = replica # minimal, replica, or logical 
synchronous_ commit = off # synchronization level; 
wal_ keep_segments = 512 # in logfile segments, 16MB eac 


同步 流 复制 主 库 的 postgresql.conf 主 要 参数 如 下 
所 示 : 





wal_ level = replica # minimal, replica, or logical 
synchronous_commit = on # synchronization level; 
synchronous_standby_names = 'node2' # standby servers that 
wal_ keep_segments = 512 # in logfile segments, 16MB each; 





以 上 仅 列 出 单 实例 、 异 步 流 复制 、 同 步 流 复制 
模式 的 主要 postgresql.conf 参 数 ， 其 他 postgresql.conf 
参数 配置 一 样 。 


12.3.1 恋 性 能 测试 


先 对 单 实例 、 异 步 流 复制 、 同 步 流 复制 进行 读 
性 能 对 比 ， 选 择 基于 主键 的 查询 场景 进行 读 性 能 测 
试 ， 创建 测试 表 test_per1 并 插入 1000 万 测试 数据 ， 
如 下 所 示 : 





postgres=# CREATE TABLE test peri1( 
id int4, 
name text, 
create time timestamp(0) without time zone default clock_t 
CREATE TABLE 
postgres=# INSERT INTO test_ peri(id,nanme) 
SELECT n,n||'_peri1' 
FROM generate_series(1,10000000) n; 
INSERT © 10000000 


ee | 


之 后 添加 主键 并 做 表 分 析 ， 如 下 所 示 。 


postgres=# ALTER TABLE test_per1 ADD PRIMARY KEY(id); 
ALTER TABLE 

postgres=# ANALYZE test_per1， 

ANALYZE 





编写 压力 测试 查询 SQL 肢 本， 脚本 名 为 
select_per1l.sql， 如 下 所 示 : 


\set v_id random(1,10000000) 


SELECT name FROM test_per1 WHERE id=:v_id; 


变量 v_id 从 1 到 1000 万 范围 内 随机 获取 一 个 整 
数 ， 根 据 主 键 查询 表 test_per1， 之 后 测试 并 发 连接 
数 分 别 为 2>、4、8、16 的 TPS 情 况 ，pgbench 测 试 脚 
本 如 下 所 示 : 


pgbench -c 2 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 4 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 8 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 16 -T 120 -d postgres -U postgres -n N -M prepared 





每 次 pgbench 测 试 时 间 为 120 秒 ，-M 设 置 repared 
表示 局 用 prepared statements，-n 表 示 不 做 VACUUM 
操作 ， 根 据 以 上 pgbench 测 试 脚 本 对 单 实例 、 腊 步 
流 复 制 、 同 步 流 复制 模式 进行 读 压 力 测试 ， 测 试 结 


果 汇 总 如 表 12-2 所 示 。 








连 接 数 单 实 例 (TPS) 异步 流 复制 (TPS) 同步 流 复制 (TPS) 
2 17061 16659 16427 
4 20370 19966 19622 
8 18193 16756 17991 
16 11707 11745 11675 











根据 以 上 测试 数据 ， 生 成 如 下 图 表 ， 如 图 12-1 
所 示 。 


一 * 一 单 实例 





-加 一 异步 流 复制 
.同步 流 复制 





图 12-1 单 实 例 、 异 步 流 复制 、 同 步 流 复制 读 性 能 
对 比 


从 以 上 测试 看 出 ， 并 发 连接 数 为 4 时 性 能 最 
高 ， 这 与 设备 CPU 核 数 有 关 ， 本 测试 虚 机 CPU 逻辑 
核 为 4， 并 发 连接 数 上 升 到 8 和 16 时 ， 读 性 能 降低 。 
以 上 是 根据 主键 查询 的 场景 ， 在 连接 数 小 于 4 时 ， 
异步 流 复 制 和 同步 流 复制 比 单 实 例 读 性 能 略 有 降 
低 ， 降 幅 在 5% 以 内 ， 总 体 来 说 ， 单 实例 、 异 步 流 
复制 、 同 步 流 复制 在 基于 主键 的 读 场景 下 性 能 差异 


较 小 。 


到 注意 ”测试 过 程 中 我 们 发 现 CPU 使 用 率 大 
部 分 情况 都 在 50% 以 下 ， 如 果 一 个 pgbench 进 程 没有 
充分 消耗 虚拟 机 的 所 有 计算 资源 ， 可 以 在 系统 上 跑 
多 个 pgbench 进 程 测试 这 台 设 备 此 查询 场景 的 最 高 
tps。 


12.3.2” 写 性 能 测试 


接着 对 单 实 例 、 异 步 流 复制 、 同 步 流 复 制 模式 
进行 写 性 能 测试 ， 测 试 场 景 为 基于 主键 的 更 新 操 
作 ， 创 建 测 试 表 test_per2 并 插入 1000 万 数据 ， 如 下 
所 示 : 





postgres=# CREATE TABLE test per2(id int4,name text,flag char( 
CREATE TABLE 
postgres=# INSERT INTO test_per2(id,name) 

SELECT n,n||'_per2" 

FROM generate_ series(1,10000000) n; 


INSERT 0 10000000 


添加 主键 并 做 表 分 析 ， 如 下 所 示 


postgres=# ALTER TABLE test_per2 ADD PRIMARY KEY(id); 
ALTER TABLE 

postgres=# ANALYZE test_per2; 

ANALYZE 


编写 压力 测试 脚本 ， 脚 本 名 为 update_per2.sql 
如 下 所 示 : 


\set v_id random(1,1000000) 


update test per2 set flag='1' where id=:v_id; 


变量 v_id 从 1 到 1000 万 范围 内 随机 获取 一 个 整 
数 ， 根 据 主键 更 新 表 test_per2 的 flag 字 段 ， 之 后 测试 
并 发 连接 数 分 别 为 2>、4、8、16 的 TPS 情 况 ， 
pgbench 测 试 脚本 如 下 所 示 : 


pgbench -c 2 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 4 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 8 -T 120 -d postgres -U postgres -n N -M prepared - 
pgbench -c 16 -T 120 -d postgres -U postgres -n N -M prepared 





每 次 pgbench 测 试 时 间 为 120 秒 ， 根 据 以 上 
pgbench 测 试 脚本 对 单 实例 、 有 异步 流 复 制 、 同 步 流 





Re 
开 示 。 


单 实例 (TPS ) 异步 流 复 制 (TPS ) 同步 流 复制 (TPS ) 


0 
不 。 





20000 =- 
18000 -| 
16000 -| 
14000 -| 
12000 1 
10000 - 一 4 一 单 实例 

8000 - 


一 量 一 异步 流 复制 


6000 :- aa 
同步 流 复 制 
4000 :| 


2000 - 
0 1 
4 8 
并 发 连接 数 


图 12-2 单 实例 、 异 步 流 复制 、 同 步 流 复制 写 性 能 





对 比 


12.4 流 复 制 监 控 





。 流 复制 部 署 完成 之 后 ， 通 常 需要 
库 、 备 库 的 状态 ， 这 一 小 节 介绍 流 复制 监控 方面 的 
内 容 。 





12.4.1 pg_stat_replication 


主 库 上 主要 监控 WAL 发 送 进程 信息 ， 
pg_stat_replication 视 图 显示 WAL 友 送 进 程 的 详细 信 
居 ， 这 个 视图 对 于 流 复 制 的 监控 非常 重要 ， 前 一 小 
节 测 试 写 性 能 过 程 中 此 视图 的 一 个 时 间 点 数据 如 下 
所 示 : 








postgres=# SELECT * FROM pg_stat_replication ; 


-[ RECORD 4 -== 
pid 7683 

usesysid 16384 

usename repuser 

application_name node2 


client_addr 192.168.28.75 
client_hostname 
client_port 
backend_start 


backend xmin 


57870 
2017-09-05 11:50:31.629468+08 


state streaming 

sent_lsn 3/643CB568 
write_lsn 3/643CB568 
flush_lsn 3/643CB488 
replay_lsn 3/643CB030 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


write_lag 00:00:00 .000224 


flush_lag | 00:00:00.001562 


replay_lag | 00:00:00.006596 
sync_priority | 1 
sync_state | Sync 


视图 中 的 主要 字段 解释 如 下 : 
* pid: WAL 发 送 进 程 的 进程 号 。 
usename: WAL 发 送 进 程 的 数据 库 用 户 名 。 


application_name: 连接 WAL 发 送 进 程 的 应 用 
别名 ， 此 参数 显示 值 为 备 库 recovery.conf 配 置 文件 
中 primary_conninfo 参 数 application_name 选 项 的 值 。 


client_addr: 连接 到 WAL 发 送 进 程 的 客户 端 
IP 地 址 ， 也 就 是 备 库 的 IP。 


. backend_statt: WAL 发 送 进 程 的 启动 时 间 。 


` state: 显示 WAL 发 送 进程 的 状态 ，stattup 表 
示 WAL 进 程 在 启动 过 程 中 ; catchup 表 示 备 库 正 在 追 
赶 主 库 ; 人 3 经 追赶 上 了 主 库 ， 并 
且 主 库 向 备 库 发 送 WAL 日 起 心 S 流 ; 这 个 状态 是 流 复 制 
的 常规 状态 ; backup 表 示 通 过 pg_basebackup 正 在 进 
行 备份 ; stopping 表 示 WAL 发 送 进程 正在 关闭 。 


sent_ lsn: WAL 发 送 进 程 最 近 发 送 的 WAL 日 


志 位 置 。 


write ne a 入 的 WAL 日 志 位 置 ， 
oo 日: 志 。 


. flush_lsn: 备 库 最 近 写 入 的 WAL 日志 位 置 ， 
这 时 WAL 日志 流 已 写 入 备 库 WAL 日志 文件 。 


.teplay_lsn: 备 库 最 近 应 用 的 WAL 日志 位 置 。 


， write a 日 志 落 盘 后 等 待 备 库 
接收 WAL 日志 (这 时 WAL 日 志 流 还 没 写 入 备 库 
WAL 日 志 文件 ， 还 在 操作 系 统 缓存 中 ) 并 返回 确认 
信息 的 时 间 。 


usb pos: J 日 志 落 盘 后 等 待 备 库 
接 ~ 日 志 (这 时 WAL 日 志 流 已 写 入 备 库 WAL 
志文 件 ， 但 还 没有 应 用 WAL 日 志 ) 并 返回 确认 信 
息 的 时 间 。 


* replay_lag: 0 9 志 落 盘 后 等 待 备 库 
接收 WAL 日 志 (这 时 WAL 日 志 流 已 写 入 备 库 WAL 
日 志文 件 ， 并 且 已 应 用 WAL 日 志 志 ) 并 返回 确认 信息 
的 时 间 。 


:Sync_ptiotity: 基于 优先 级 的 模式 中 备 库 被 选 


中 成 为 同步 备 库 的 优先 级 ， 对 于 基于 quorum 的 选举 
模式 此 字段 则 无 影响 。 


. Sync_state: 同步 状态 ， 有 以 下 状态 值 ，async 
表示 备 库 为 异步 同步 模式 ;potential 表示 备 库 当前 
为 异步 同步 模式 ， 如 果 当 前 的 同步 备 库 宏 机 ， 异 步 
备 库 可 升级 成 为 同步 备 库 ; Sync 表示 当前 备 库 为 同 
步 模 式 ; ， 为 quorum standbys 的 候 
选 ， 本 章节 后 面 会 详细 介绍 quotum standbys。 


其 中 write lag、flush_lag、 Ieplay_ lag 三 个 字段 
为 PostgreSQL10 版 本 新 特性 ， 是 衡量 主 备 延迟 的 重 
要 指标 ， 下 一 市 重点 介绍 


12.4.2 ”监控 主 备 延 人 壕 


同步 流 复制 和 异步 流 复制 主 备 库 之 间 的 延迟 是 
客观 存在 的 ， 事实 上 当 流 复制 主 主 库 、 备 库 机 器 负载 
较 低 的 情况 下 主 备 延 迟 通 音 能 在 坚 秒 级 ， 数 据 库 越 
索 忙 或 数据 库 主 机 负载 越 高 主 备 延 迟 越 大 ， 有 两 个 
维度 衡量 主 备 库 之 间 的 延迟 : 通过 WAL 延 迟 时 间 衡 
量 ， 通 过 WAL 日 志 应 用 延迟 量 衡 量 ， 下 面 详细 介 


绍 。 











方式 一 : 通过 WAL 延 迟 时 间 衡 量 


， 的 延迟 分 为 write 延 时 、flush 延 时 、replay 
延 时 ， 分 别 对 应 pg_stat_replication 的 write_lag、 
flush_lag、replay_lag 字 段 ， 上 一 节 已 经 详细 解释 了 
这 三 个 字段 ， 通 过 备 库 WAL 日 志 接 收 延 时 和 应 用 延 
时 判断 主 备 延 时 ， 在 流 复 制 主 库 上 执行 如 下 SQL: 


postgres=# SELECT pid,usename,client addr,state,write lag,flus 
FROM pg_stat_replication ， 
-[ RECORD 1 ]---------------- 


pid | 7683 

usename | repuser 
client_addr | 192.168.28.75 
state | streaming 
write_lag | 00:00:00.000997 
flush_lag | 00:00:00.002008 
replay_lag | 00:00:00.002916 








对 于 一 个 有 稳定 写 事务 的 数据 库 ， 备 库 收 到 主 
库 发 送 的 WAL 日 志 流 后 站 先是 写 入 备 库 主机 操作 系 
统 缓 存 ， 之 后 写 入 备 库 WAL 日 志文 件 ， 最 后 备 库 根 
据 WAL 日 志文 件 应 用 日 志 ， 因 此 这 种 场景 下 
write_lag、flush_lag 和 replay_lag 大 小 关系 如 下 所 
和 修 : 





replay_ lag > flush_lag > write_lag 


以 上 查询 中 fush_lag 时 间 为 0.2008 训 秒 ， 
replay_lag 时 间 为 0.2916 坚 秒 ，replay_lag 延 时 大 于 


flush_lag 延 时 很 好 理解 ， 因 为 只 有 备 库 接 收 的 WAL 
日 志 流 写 入 WAL 日 志文 件 后 才能 应 用 WAL， 因 此 
replay_lag 要 大 于 flush_lag。 


write_ ljag、flush_lag、replay_lag 为 
PostgreSQL10 版 本 狐 增 字段 ，10 版 本 前 
pg_stat_replication 视 图 不 提供 这 三 个 字段 ， 但 是 也 
有 办 法 监控 主 备 延 时 ， 在 流 复 制备 库 执 行 以 下 
SQL， 如 下 所 示 : 


postgres=# SELECT EXTRACT(SECOND FROM now()- pg_last xact_repl 
date_part 
0 .002227 

(1 row) 








pg_last_xact_replay_timestamp 据 数 显 示 备 库 最 
近 WAL 日志 应 用 时 间 ， 通 过 与 当前 时 间 比 较 可 粗略 
计算 主 备 库 延 时 ， 这 种 方式 的 优点 是 即使 主 库 宕 
反 ， 也 可 以 大 概 判断 主 备 延 时 。 缺 点 是 如 采 主 库 上 
只 有 读 操 作 ， 主 库 不 会 发 送 WAL 日 志 流 到 备 库 ， 
pg_last_xact_replay_timestamp 水 数 返 回 的 结果 就 是 
一 个 前 态 的 时 间 ， 这 个 公式 的 判断 结果 就 不 严 齐 
re 


方式 二 : 通过 WAL 日 志 应 用 延迟 量 衡 量 








通过 流 复制 备 库 WAL 的 应 用 位 置 和 主 库 本 地 
WAL 写 入 位 置 之 间 的 WAL 日 志 量 能 够 准确 判断 主 
备 延 时 ， 在 流 复制 主 库 执行 以 下 SQL: 


postgres=# SELECT pid,usename,client addr, state, 
pg9_wal_lsn_diff(pg_current wal lsn(),write lsn) write_ 
pg9_wal_lsn_diff(pg_current wal lsn(),flush_lsn) flush_ 
pg9_wal_lsn_diff(pg_current wal lsn(),replay_lsn) repla 
FROM pg_stat_replication ， 
-[ RECORD 1 ]------------ 


pid | 7683 

usename | repuser 
client_addr | 192.168.28.75 
state | streaming 
write_ delay | 560 

flush_ delay | 896 
replay_dely | 1272 


pg_current_wal_lsn 函 数 显 示 流 复制 主 库 当前 
WAL 日 志文 件 写 入 的 位 置 ，pg_wal_lsn_diff 函 数 计 
算 两 个 WAEL 日 志 位 置 之 间 的 偏 移 量 ， 返 回 单位 为 字 
节 数 ， 以 上 内 容 显 示 流 复制 备 库 WAL 的 write 延迟 
560 字 节 ，flush 延 迟 896 字 节 ，replay 延 迟 1272 字 
节 ， 这 种 方式 有 个 缺点 ， 当 主 库 宕 抒 时 ， 此 方法 行 
不 通 。 


方式 三 : 通过 创建 主 备 延 时 测算 表 方 式 
这 种 方法 在 主 库 上 创建 一 张 主 备 延 时 训 算 表 ， 


并 定时 往 表 插 入 数据 或 更 新 数据 ， 之 后 在 备 库 上 计 
算 这 条 记录 的 插入 时 间或 更 新 时 间 与 当前 时 间 的 差 














异 来 判断 主 备 延 时 ， 这 种 方法 不 是 很 严谨 ， 但 很 实 
用 ， 当 主 库 宕 机 时 ， 这 种 方式 依然 可 以 大 概 判断 出 
主 备 延 时 。 


12.4.3 pg_stat_ wal_ receiver 


pg_stat_replication 视 图 显示 WAL 发 送 进 程 的 详 
细 信 息 ， WAL 接 收 进程 也 有 相应 的 视图 显示 评 细 信 
晨 ， 如 下 所 示 : 





postgres=# SELECT * Su pg9_stat wal_receiver ;， 
-[ RECORD 1 ]-------t+ 





pid 22573 
status streaming 
receive_ start_lsn 3/2D000000 
recelve_start t1i 1 
received_l1sn 3/852DC428 


last_msg_send_time 2017-09-06 15:35:28.178167+08 
last_msg_receipt_ time 2017-09-06 15:35:28.177706+08 
latest_end_lsn 3/852DC508 

latest_end_time 2017-09-06 15:35:28.178167+08 
slot_name 

conninfo | user=repuser passfile=/home/postgres/ 





1 
| 
| 
| 
| 
received tl1i | 1 
| 
| 
| 
| 
| 





以 上 主要 字段 信息 如 下 : 
pid: WAL 接 收 进程 的 进程 号 。 


. status: WAL 接 收 进 程 的 状态 。 


. feceive_Sstatt_ lsn: WAL 接 收 进 程 启动 后 使 用 
的 第 一 个 WAL 日 志 位 置 。 


. received_lsn: 最 近 接 收 并 写 入 WAL 日 志文 件 
的 \VAL 位 置 。 


` last msg _ send_time: 备 库 接收 到 发 送 进程 最 
后 一 个 消息 后 ， 向 主 库 发 回 确认 消息 的 发 送 时 间 。 


` last_msg_teceipt_time: 备 库 接收 到 发 送 进 程 
最 后 一 个 消息 的 接收 时 间 。 
conninfo: WAL 接 收 进程 使 用 的 连接 串 ， 连 


接 信 息 由 备 库 $PGDATA 目 录 的 recovery.conf 配 置 文 
件 的 primary_conninfo 参 数 配 置 。 


12.4.4 相关 系统 函数 


PostgreSQL 提 供 相 关系 统 函 数 监 控 流 复制 状 
态 ， 尤 其 是 WAL 相 关 日 志 函 数 。 


例如 ， 显 示 恢 复 进 程 是 否 处 于 恢复 模式 ， 在 备 
库 上 执行 以 下 函数 : 





postgres=# SELECT pg_is _ in_recovery(); 
pg_is_in_recovery 


t 
(1 row) 





这 个 函数 通常 判断 主 备 的 角色 ， 返 回 为 表示 
为 备 库 ， 返 回 f 瑟 示 主 亩 ， 因 为 备 库 会 接收 主 库 
WAL 发 送 进 程 发 送 的 WAL 并 应 用 WAL。 


显示 备 库 最 近 接 收 的 WAL 日 志 位 置 ， 如 下 所 








Re 


和 仆 : 


postgres=# SELECT pg_last wal receive lsn(); 
pg_last wal receive_ lsn 
3/91B5BCE8 

(1 row) 











显示 备 库 最 近 应 用 WAL 日 志 的 位 置 ， 如 下 所 


一 


人: 


postgres=# SELECT pg_last_wal_replay_]lsn() ; 
pg9_last_ wal_replay_lsn 
3/91EFED10 

(1 row) 














显示 备 库 最 近 事 务 的 应 用 时 间 ， 如 下 所 示 : 





postgres=# SELECT pg_last xact_ replay timestamp(); 
pg9_last_xact_replay_timestamp 








2017-10-07 09:04:59.67741+08 
(1 row) 





显示 主 库 WAL 当 前 写 入 位 置 ， 如 下 所 示 : 





postgres=# SELECT pg_current wal lsn(); 
pg_current_wal_lsn 
3/940001B0 

(1 row) 





计算 两 个 WAL 日 志 位 置 的 偏 移 量 ， 如 下 所 


i 


修 : 





postgres=# SELECT pg_wal_ lsn_diff('3/940001B0O','3/940001A0' ) ; 
pg_wal_lsn_diff 


12.5 流 复 制 主 备 切 换 


前 面 小 节 介 绍 了 流 复 制 的 部 著 、 性 能 测试 和 流 
复制 监控 方面 的 内 容 ， 流 复制 的 主 库 和 备 库 角色 不 
是 静态 存在 的 ， 在 维护 过 程 中 可 以 对 两 者 进行 角色 
切换 ， 例 如 当主 库 便 件 故 障 或 主 库 系统 参数 调整 需 
要 重 局 操作 系统 时 ， 通 第 进行 流 复制 主 备 切 换 ， 这 
一 小 贡 将 介绍 手工 主 备 切换 ， 主 备 切 换 的 方式 有 两 
种 ， 一 种 是 通过 创建 触发 器 文件 方式 触发 主 备 切 
换 ， 另 一 种 方式 通过 pg_ctl promot 命 令 触 发 主 备 切 
换 。 


目前 PostgreSQL 高 可 用 方案 大 多 基于 流 复制 环 
境 进行 部 署 ， 流 复制 主 备 切换 是 PostgreSQL 高 可 用 
方案 的 基础 ， 第 14 章 会 详细 介绍 PostgreSQL 高 可 用 











12.5.1 判断 主 备 角色 的 五 种 方法 





进行 流 复制 主 备 切换 之 前 首先 得 知 着 当前 数据 
库 的 角色 ， 这 里 提供 五 种 方法 判断 数据 库 角 色 ， 测 
试 环 境 为 一 主 一 备 ， 这 些 方法 同样 适用 于 一 主 多 备 
环境 ， 对 于 级 联 复制 或 馆 辑 复制 的 场景 不 完全 适 
用 ， 但 基本 思想 是 一 致 的 。 











方式 一 : 操作 系统 上 和 查看 WAEL 发送 进程 或 
WAL 接 收 进程 


之 前 介绍 了 流 复 制 部 团 过 程 ， 大 家 知道 法 复制 
主 库 上 有 WAL 发 送 进 程 ， 流 复制 备 库 上 有 WAL 接 
收 进程 ， 根 据 这 个 思路 ， 在 数据 库 主机 上 执行 以 下 
命令 ， 如 果 输 出 wal sender..streaming 进 程 则 说 明 当 
前 数据 库 为 主 库 : 





[postgres@pghost1 ~]$ ps -ef | grep "wal" | grep -v "grep" 
postgres 16666 16661 0 Sep06 ? 00:00:09 postgres: wal 
postgres 16672 16661 0 Sep06 ? 00:00:13 postgres: wal 


如 果 输 出 wal receiver..streaming 进 程 则 说 明 当 
前 数据 库 为 备 库 ， 如 下 所 示 : 





[postgres@pghost2 ~]$ ps -ef | grep "wal" | grep -v "grep" 
postgres 27291 22567 0 Sep06 ? 00:00:32 postgres: wal 


方式 二 : 数据 库 上 查看 WAL 发送 进 程 或 WAL 
接收 进程 


同样 ， 也 可 以 在 数据 库 层 面 查 看 WAL 发 送 进 
程 和 WAL 接 收 进 程 ， 例 如 在 主 库 上 查询 
pg_stat_replication 视 图 ， 如 果 人 返回 记录 说 明 是 主 
库 ， 备 库 上 查询 此 视图 无 记录 ， 如 下 所 示 : 














postgres=# SELECT pid,usename,application_name,client_ addr, sta 
FROM pg_stat_replication ， 


pid | usename | application name | client_addr | state 
和 Te 

16672 | repuser | node2 | 192.168.28.75 | strea 
(1 row) 





同样 ， 在 备 库 上 查看 pg_stat_wal_receiver 视 
图 ， 如 果 返 回 记录 说 明 是 备 库 ， 流 复制 主 库 上 此 视 
图 无 记录 ， 如 下 所 示 : 





postgres=# SELECT pid,status,1ast_ msg_send_ time,1last msg_recei 
FROM pg_stat wal receiver ，; 











-[ RECORD1 ]--------- 和 
pid | 17551 

status | streaming 

last_msg_send_time | 2017-10-07 09:22:07.479282+08 
last_msg_receipt_ time | 2017-10-07 09:22:07.480277+08 

conninfo | user=repuser passfile=/home/postgres/.pgpas 





方式 三 : 通过 系统 图 数 奋 看 
登录 数据 库 执行 以 函数 ， 如 下 所 不: 





postgres=# SELECT pg_is_ in_recovery(); 


pg_is_in_recovery 





如 果 返 回 t 说 明 是 备 库 ， 返 回 f 说 明 是 主 库 。 


方式 四 : 得 看 数据 库 控 制 信息 


通过 pg_controldata 命 令 查 看 数据 库 控 制 信息 ， 
内 容 包 含 WAL 日 志 信 息 、checkpoint、 数 据 块 等 信 
轧 ， 通 过 Database cluster state 信 息 可 判断 是 主 库 还 
是 备 库 ， 如 下 上 所 示 : 


[postgres@pghost1 ~]$ pg_controldata | grep cluster 
Database cluster state: in production 


以 上 和 奏 询 结果 返回 记 production 表 示 为 主 库 ， 
返回 in archive recovery 表 示 是 备 库 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ pg_controldata | grep cluster 
Database cluster state: in archive recovery 


方式 五 : 通过 recovery.conf 配 置 文件 查看 


根据 之 前 小 节 流 复制 部 署 过 程 ， 在 备 库 
$PGDATA 目 录 下 会 创建 recovery.conf 配 置 文件 ， 如 
果 存 在 这 个 文件 说 明 是 备 库 ， 如 果 $PGDATA 目 录 
不 存在 此 文件 或 此 文件 后 缀 名 是 recovery.done 则 说 
明 是 主 库 。 








12.5.2 主 备 切换 之 文件 触发 方式 





PostgreSQL9.0 版 本 流 复制 主 备 切换 只 能 通过 创 
建 触发 文件 方式 进行 ， 这 一 小 节 将 介绍 这 种 主 备 切 
换 方 式 ， 测 试 环境 为 一 主 一 备 异 步 流 复制 环境 ， 
pghost1 上 的 数据 库 为 主 库 ，pghost2 上 的 数据 库 为 
备 库 ， 文 件 触 发 方式 的 手工 主 备 切 换 主 要 步骤 如 
下 : 





1) 配置 备 库 recovery. conf 文 件 wigger_ file 参 
数 ， 设 置 激活 备 库 的 触及 文件 路 径 和 名 称 。 


2) 关闭 主 库 ， 建 议 使 用 -m fast 模 式 关 闭 。 


3) 在 备 库 上 创建 触 用 文件 激活 备 库 ， 如 果 
recovery.Conf 变 成 recovery.done 表 示 备 库 已 经 切换 成 
主 库 。 


4) 这 时 需要 将 老 的 主 库 切 换 成 备 库 ， 在 老 的 

主 库 的 $PGDATA 目 录 下 创建 recovery.conf 文 件 〈 如 
果 此 目录 下 不 存在 recovery.conf 文 件 ， 可 以 根据 
$sPGHOME/recovery.conf.sample 模 板 文 件 复制 一 

个 ， 如 果 此 目录 下 存在 recovery.done 文 件 ， 需 将 
recovery.done 文 件 重 命 名 为 recovery.conf) ， 配 置 和 
老 的 从 库 一 样 ， 只 是 primary_conninfo 参 数 中 的 IP 换 
成 对 端 IP。 


5) 局 动 老 的 主 库 ， 这 时 观察 主 、 备 进程 是 否 








正常 ， 如 采 正 帅 表 示 主 备 切 换 成 功 。 
首先 在 备 库 上 配置 recovery.conf， 如 下 所 示 : 





recovery_target timeline = "Latest， 

standby_mode = on 

primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser 
trigger_file = '/database/pg10/pg_root/.postgresql.trigger.192 





trigger_file 可 以 配置 成 普通 文件 或 隐藏 文件 ， 
调整 以 上 参数 后 需 重 局 备 库 使 配置 参数 生效 。 


公牛 天 财主 库 二 天 下 所 柬 : 








[postgres@pghost1 ~]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 


在 备 库 上 创建 触 友 文 件 激活 备 库 ， 如 下 所 示 : 





[postgres@pghost2 pg_root]$ 11 recovery.conf 
-rw-r--r-- 1 postgres postgres 5.8K Sep 8 20:47 recovery.conf 
[postgres@pghost2 pg_root]$ touch /database/pg10/pg_root/.post 


触发 器 文件 名 称 和 路 径 需 和 recovery.conf 配 置 
文件 trigger_file 保 持 一 致 ， 再 次 查看 recovery 文 件 
时 ， 发 现 后 辍 由 原来 的 .conf 变 成 了 .done。 


[postgres@pghost2 pg_rootl]$ 11 recovery .done 
-rw-r--r-- 1 postgres postgres 5.8K Sep 8 20:47 recovery ,done 








得 看 备 库 数 据 库 日 志 ， 如 下 所 示 : 





2017-09-08 21:00:21.622 Gold oD 1105,1,,2017-09-C 
Is the server running on host ""192.168. oe " and accept 
TCP/IP connections on port 1921?3"，，，yyy 

2017-09-08 21:00:26.622 ed 

2017-09-08 21:00:26.622 CST,,,4235,,59b2916f.108b,10,,2017-09- 

2017-09-08 21:00:26.622 CST,,,4235,,59b2916f.108b,11,,2017-09- 

2017-09-08 21:00:26.640 CST,,,4235,,59b2916f.108b,12,,2017-09- 

2017-09-08 21:00:26.792 CST,,,4235,,59b2916f.108b,13,,2017-09- 

2017-09-08 21:00:26.808 CST,,,4233,,59b2916f.1089,3,,2017-09-C 





根据 备 库 以 上 信息 ， 由 于 关闭 了 主 库 ， 首 先 日 
志 显 示 连 接 不 上 主 库 ， 接 痢 显 示 有 发 现 了 触及 文件 ， 
之 后 显示 恢复 成 功 ， 数 据 库 切换 成 恋 写 模 陈 。 


这 时 根据 pg_controldata 输 出 进行 验证 ， 如 下 所 





和 修 : 





[postgres@pghost2 pg_root]1$ pg_controldata | grep cluster 
Database cluster state: in production 








以 上 显示 数据 库 角 色 已 经 是 主 库 角 色 ， 在 
pghost2 上 创建 一 张 名 为 test_alived 的 表 并 插入 数 
据 ， 如 下 所 示 : 


postgres=# CREATE TABLE test_alived2(id int4); 
CREATE TABLE 

postgres=# INSERT INTO test _ alived2 VALUES(1); 
INSERT © 1 





之 后 ， 根 据 步 骤 4) 的 内 容 我 们 准备 将 老 的 主 
库 切 换 成 备 库 角色 ， 在 老 的 主 库 上 配置 
recovery.conf， 如 下 所 示 : 











recovery_target timeline = 'latest' 

standby_mode = on 

primary_conninfo = 'host=192.168.28.75 port=1921 user=repuser 
trigger_file = '/database/pg10/pg_root/.postgresql.trigger.192 





以 上 配置 和 pghost2 上 的 recovery.done 配 置 文件 
一 致 ， 只 是 primary_conninfo 参 数 的 host 选 项 配置 成 
对 端 主机 了 P。 


之 后 在 pghostl1 上 的 postgres 主 机 用 户 家 目录 创 
建 ~/.pgpass 文 件 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ touch ~/.pgpass 
[postgres@pghost1 ~]$ chmod 600 ~/.pgpass 





并 在 ~/.pgpass 文 件 中 插入 以 下 内 容 : 





192.168.28.74:1921:replication:repuser:re12a345 
192.168.28.75:1921:replication:repuser:re12a345 


之 后 启动 pghostl1 上 的 数据 库 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ pg_ctl] start 


局 动 后 观察 数据 库 日 志 ， 发 现 数据 库 局 动 正 
第， 查看 数据 库 表 ， 发 现 test_alived2 表 也 有 了 ， 如 
下 所 示 : 


postgres=# SELECT * from test alived2 ，; 
id 


同时 ，pghostL 上 已 经 有 了 WAL 接 收 进程 ， 
pghost2 上 有 了 WAL 发 送 进程 ， 说 明 老 的 主 库 已 经 
成 功 切 换 成 备 库 ， 以 上 是 主 备 切换 的 所 有 步骤 。 


<) 注意 “为 什么 在 步骤 2 中 需要 干净 地 关闭 
主 库 ? 数据 库 关闭 时 首先 做 一 次 checkpoint， 完 成 之 
后 通知 WAL 发 送 进 程 要 关闭 了 ，WAL 发 送 进程 会 将 
截止 此 次 checkpoint 的 WAL 日 志 流 发 送 给 备 库 的 
WAL 接 收 进程 ， 备 节点 接收 到 主 库 最 后 发 送 来 的 
WAL 日志 流 后 应 用 WAL， 从 而 达到 了 和 主 库 一 致 的 
状态 。 另 一 个 需要 注意 的 问题 是 假如 主 库 主机 异常 


宕 机 了 ， 如 果 激 活 备 库 ， 备 库 的 数据 完全 和 主 库 一 
致 吗 ? 此 环境 为 一 主 一 备 异 步 流 复制 环境 ， 备 库 和 
主 库 是 异步 同步 方式 ， 存 在 延 时 ， 这 时 主 库 上 已 提 
交 事 务 的 WAL 有 可 能 还 没 来 得 及 发 送 给 备 库 ， 主 库 
主机 就 已 经 宕 机 了 ， 因 此 异步 流 复 制备 库 可 能 存在 
事务 丢失 的 风险 。 


12.5.3 主 备 切换 之 pg_ctl promote 方 式 


上 一 节 介 绍 了 以 文件 触发 方式 进行 主 备 切 换 ， 
PostgreSQL9.1 版 本 开始 支持 pg_ctlpromote 触 发 方 
式 ， 相 比 文件 触发 方式 操作 更 方便 ，promote 命 令 
语法 如 下 : 











pg9_ctl1 promote [-D datadir] 


-DD 是 指数 据 目 录 ， 如 果 不 指定 会 使 用 环境 变量 
$PGDATA 设 置 的 值 。promote 命 令 发 出 后 ， 运 行 中 
的 备 库 将 停止 恢复 模式 并 切换 成 谈 写 模式 的 主 库 。 


pg_ctl promote 主 备 切换 步 又 和 文件 触发 方式 大 
体 相 同 ， 只 是 步 又 1 中 不 需要 配置 recovery.conf 配 置 
文件 中 的 trigger_file 参 数 ， 并 用 步骤 3 中 换 成 以 
pg_ctl promote 方 式 进行 主 备 切 换 ， 如 下 : 








1) 关闭 主 库 ， 建 议 使 用 -m fast 模 式 关 闭 。 


2) 在 备 库 上 执行 pg_ctl promote 命 令 激 活 备 
库 ， 如 果 recovery.conf 变 成 recovery.done 表 示 备 库 已 
切换 成 为 主 库 。 


3) 这 时 需要 将 老 的 主 库 切 换 成 备 库 ， 在 老 的 
主 库 的 $PGDATA 目 录 下 创建 recovery.conf 文 件 〈 如 
果 此 目录 下 不 存在 recovery.conf 文 件 ， 可 以 根据 
$sPGHOME/recovery.conf.sample 模 板 文 件 复制 一 
个 ， 如 果 此 目录 下 存在 recovery.done 文 件 ， 需 将 
recovery.done 文 件 重 命名 为 recovery.conf) ， 配 置 和 
老 的 从 库 一 样 ， 只 是 primary_conninfo 参 数 中 的 IP 换 
成 对 端 IP。 

4) 启动 老 的 主 库 ， 这 时 观察 主 、 备 进程 是 否 
下 第 ， 如 琳 正 第 表示 主 备 切换 成 功 。 


以 上 是 pg_ctl promote 主 备 切 换 的 主要 步骤 ， 这 
一 小 节 不 进行 演示 了 ， 下 一 人 小节 介 绍 pg_rewind 工 具 
时 会 给 出 使 用 pg_ctl promote 进 行 主 备 切 换 的 示例 。 








12.5.4 pg_rewind 


pg_rewind 是 流 复 制 维护 时 一 个 非 第 好 的 数据 
同步 工具 ， 在 上 一 节 介 绍 流 复制 主 备 切换 内 容 中 讲 





到 了 主要 有 五 个 步骤 进行 主 备 切换 ， 其 中 步骤 2 是 
在 激活 备 库 前 先 关 团 主 库 ， 如 果 不 做 步骤 2 会 出 现 
什么 样 的 情况 ? 下面 我 们 举例 进行 演示 ， 测 试 环境 
为 一 主 一 备 异 步 流 复 制 环境 ，pghostL 上 的 数据 库 为 
主 库 ，pghost2 上 的 数据 库 为 备 库 。 


备 库 recovery.conf 配 置 如 下 所 示 : 








recovery_target timeline = "Latest， 
standby_mode = on 
primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser' 


检查 流 复 制 状 态 ， 确 保 正 名 后 在 备 库 主机 上 执 
行 以 下 命令 激活 备 库 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]1$ pg_ctl1 promote 
waiting for server to promote.... done 
server promoted 


但 看 备 库 数据 库 日 志 ， 能 够 看 到 数据 库 正常 打 
开 接 收 外 部 连接 的 信息 ， 这 诬 明 激活 成 功 ， 检 碍 
pghost2 上 的 数据 库 角 色 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]$ pg_controldata | grep cluster 
Database cluster state: in production 


从 pg_controldata 输 出 也 可 以 看 到 pghost2 上 的 数 
据 库 已 成 为 主 库 ， 说 明 pghost2 上 的 数据 库 已 经 切换 
成 主 库 ， 这 时 老 的 主 库 (pghost1 上 的 数据 库 ) 依然 
还 在 运行 中 ， 我 们 计划 将 pghost1 上 的 角色 转换 成 备 
库 ， 先 查看 pghost1 上 的 数据 库 角 色 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ pg_controldata | grep cluster 
Database cluster state: in production 





pghost1 上 pg_controldata 显 示 也 为 主 库 状 态 ， 现 
在 pghost1 和 pghost2 上 的 数据 库 已 经 没有 任何 联 
系 ， 我 们 尝试 将 pghost1 上 的 数据 库 转换 成 备 库 ， 先 
关闭 pghost1 上 的 数据 库 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 





将 $PGDATA 目 录 下 的 recovery.done 重 命名 为 
recovery.conf， 如 下 所 示 : 


[postgres@pghost1 pg_root]1$ mv recovery.done recovery.conf 


pghost1l 上 recovery.conf 配 置 如 下 所 示 : 


recovery_target timeline = 'latest' 
standby_mode = on 
primary_conninfo = 'host=192.168.28.75 port=1921 user=repuser 


局 动 pghostl1 上 的 数据 库 ， 如 下 所 示 : 


[postgres@pghost1 pg_root]$ pg_ctl1 start 


以 上 虽然 能 启动 数据 库 ， 但 是 在 pghostL 上 看 不 
到 WAL 接 收 进程 ， 在 pghost2 上 也 看 不 到 WAL 发送 
进程 ， 这 时 查看 pghost1 上 数据 库 日 志 ， 发 现 以 下 错 
误 信息 。 


2017-09-09 13:22:45.540 CST,,,11948,,59b37aa5.2eac,2,,2017-09- 
DETAIL: This server's history forked from timeline 3 at 3/A21 
2017-09-09 13:22:45.540 CST,,,11944,,59b37aa5.2ea8,5,,2017-09- 
2017-09-09 13:22:45.543 CST,,,11949,,59b37aa5.2ead,1,,2017-09- 
DETAIL: This server's history forked from timeline 3 at 3/A21 
2017-09-09 13:22:45.543 CST,,,11944,,59b37aa5.2ea8,6,,2017-09- 





这 时 候 pghost1 上 的 数据 库 已 经 无 法 直接 切换 成 
备 库 ， 只 能 重 做 备 库 ， 如 果 数 据 库 很 大 ， 重 做 备 库 
的 时 间 将 很 长 。 


以 上 演示 了 当 激 活 主 库 时 ， 如 果 没 有 关闭 老 的 
主 库 ， 这 时 老 的 主 库 残 不 能 直接 切换 成 备 库 角色 ， 
好 在 PostgreSQL 提 供 pg_rewind 工 具 ， 当 激活 主 库 时 
如 果 筷 记 关 闭 老 的 主 库 ， 可 以 使 用 这 个 工具 重新 同 








步 新 主 库 的 数据 ， 此 工具 和 pg_basebackup 主 要 甜 异 
是 pg_rewind 不 是 全 量 从 主 库 同 步 数 据 ， 而 是 只 复制 
变化 的 数据 。 下 面 举例 进行 演示 ， 首 先 将 环境 恢 
复 ， 测 试 环境 依然 为 一 主 一 备 异 步 流 复制 ，pghostl 
为 主 库 ，pghost2 为 备 库 。 


使 用 pg_rewind 的 前 提 条 件 为 以 下 之 一 : 








posteresql.conf 配 置 文件 wal_log_hints 参 数 设 
置 成 on。 


. 数据 库 安 装 时 通过 initdb 初 始 化 数据 库 时 使 
用 了 --data-checksums 选 项 ， 这 个 选项 开启 后 会 在 数 
据 块 上 进行 检测 以 发 现 [/O 〇 错误， 此 选项 只 能 在 
initdb 时 设置 ， 开 启 后 性 能 有 损失 。 


由 于 initdb 时 没有 设置 --data-checksums 选 项 ， 
我 们 在 主 库 、 备 库 的 postgresql.conf 配 置 文件 设置 
wal_log_hints 参 数 ， 如 下 所 示 : 





wal_log_hints = on 








设置 此 参数 后 ， 需 重启 数据 库 生 效 。 
之 后 在 pghost2 上 激活 备 库 ， 如 下 上 所 示 : 


[postgres@pghost2 pg_root]1$ pg_ctl1 promote 
waiting for Server to promote.... done 
server promoted 





以 上 命令 执行 成 功 后 ， 记 得 查看 数据 库 日 志和 不 
数据 库 角 色 ， 如 有 错误 日 志 根 据 日 志 2 
复 ; 男 外 ， 此 时 pghost1 上 的 数据 库 仍然 处 于 运行 状 
态 ， 我 们 需要 将 它 的 角色 转换 成 备 库 ， 首 先 在 
pghost1 上 关闭 数据 库 ， 如 下 所 示 : 





[postgres@pghost1 pg_root]$ pg_ctl1 stop -m fast 
waiting for server to shut down.... done 
server stopped 











之 后 使 用 pg_rewind 工 具 增 量 同步 pghost2 上 的 
数据 到 pghost1， 如 下 所 示 : 





[postgres@pghost1 pg_root]$ pg_rewind --target-pgdata $PGDATA 
connected to server 

servers diverged at WAL location 3/A7006508 on timeline 5 
rewinding from last common checkpoint at 3/A7000028 on timelin 
reading source file list 

reading target file list 

reading WAL in target 

need to copy 7663 MB (total source directory size is 9237 MB) 
7847309/7847309 kB (100%) copied 

creating backup label and updating control file 

syncing target data directory 

Done! 





以 上 命令 执行 成 功 后 ， 这 时 使 用 的 是 postgres 





用 户 ，postgres 用 户 密码 已 写 入 ~/.pgpass 文 件 。 





将 recovery.done 重 命名 为 recovery.conf， 如 下 上 所 


区 


和 修 : 


[postgres@pghost1 pg_root]1$ mv recovery.done recovery ,conf 


并 且 配 置 recovery.conf 的 primary_conninfo 参 数 
的 host 选 项 为 对 端 主 机 ， 之 后 局 动 数据 库 ， 如 下 所 
人 小 : 





[postgres@pghost1 pg_root]$ pg_ctl1 start 


此 时 pghost1 上 的 数据 库 已 经 成 功 切 换 成 备 库 角 
色 ， 同 时 检查 流 复 制 状态 是 否 正常 。 





12.6 ”延迟 备 库 


延迟 备 库 是 指 可 以 配置 备 库 和 主 库 的 延迟 时 
间 ， 这 样 备 库 始 终 和 主 库 保 持 指 定时 间 的 延迟 ， 例 
如 设置 备 库 和 主 库 之 间 的 延迟 时 间 为 1 小 时 ， 理 论 
上 备 库 和 主 库 的 延 时 始终 保持 在 一 小 时 还 右 。 


12.6.1 延迟 备 库 的 意义 


PostgreSQL 流 复制 环境 下 ， 如 果 主 库 不 是 很 忙 
并 且 备 库 人 硬件 资源 充分 ， 通 音 备 库 和 主 库 的 延 时 能 
在 宣 秒 级 别 。 如 果 主 库 上 由 于 误 操 作 删 除了 表 数 气 
或 删除 表 时 ， 从 库 上 的 这 些 数据 也 瞬间 被 删除 了 ， 
这 时 ， 即 使 对 数据 库 做 了 备份 ， 要 恢复 到 删除 前 的 
状态 也 是 有 难度 的 ， 比 如 ， 如 果 使 用 pg_dump 做 了 
逻辑 备份 ， 通 常 是 按 天 、 按 周 、 按 月 进行 逻辑 备份 
和 等， 也 只 能 恢复 到 最 近 逻 辑 备 份 时 刻 的 数据 ， 除 非 
是 做 了 基准 备份 并 且 开 了 归档 ， 这 时 可 以 利用 全 量 
备份 和 归档 恢复 到 删除 前 的 状态 ， 从 而 找 回 被 删除 
的 数据 ， 当 然 这 种 方法 维护 成 本 较 高 。 在 这 一 场景 
和 下， 延迟 的 备 库 在 一 定 程 度 上 绥 解 了 这 一 问题 ， 
为 在 设置 的 延 久 时间 范围 内 ， 备 库 上 的 数据 还 没 被 
删除 ， 可 以 在 备 库 上 找 回 这 些 数据 ， 这 节 将 详细 介 
绍 延迟 备 库 的 配置 和 使 用 ， 当 然 ， 如 果 超 过 了 已 设 




















置 的 主 备 延 运 时 间 才 及 现 主 库 上 的 数据 被 删除 了 ， 
这 些 数据 在 备 库 也 找 不 回来 了 。 





12.6.2 ”延迟 备 库 部 署 


测试 环境 依然 为 一 主 一 备 异 步 流 复制 ，pghostl 
为 主 库 ，pghost2 为 备 库 ， 延 迟 备 库 的 配置 非 钟 简 
单 ， 只 需要 配置 recovery_min_apply_delay 参 数 ， 此 
参数 位 于 recovery.conf 配 置 文件 ， 语 法 如 下 : 





recovery_min_apply_delay (integer ) 


此 参数 单位 默认 为 坚 秒 ， 目 前 文 持 的 时 间 单 位 
Wn 下: 


-ms《〈 毫 秒 ， 默 认 单 位 ) 

和 ) 

“ min 《分钟 ) 

“bh (小 时 ) 

“d (天 ) 

大 家 知道 流 复制 主 库 提交 事务 后 ， 主 库 会 将 此 





事务 的 WAL 日 志 流 发 送 给 备 库 ， 备 库 接 收 WAL 日 

志 流 后 进行 重 做 ， 这 个 操作 通 冲 瞬间 完成 ， 延 迟 的 
备 库 实际 上 是 设置 备 库 延迟 重 做 WAEL 的 时 间 ， 而 备 
库 依 然 及 时 接收 主 库 及 送 的 WAL 日 志 流 ， 只 是 不 是 
一 接收 到 WAL 后 就 立即 重 做 ， 而 是 等 竺 设置 的 时 间 
再 重 做 ， 假 如 设置 此 参数 为 一 分 钟 ， 流 复制 备 库 接 
收 到 主 库 肥 送 WAL 日 专 流 后 需 等 待 一 分 钟 才 重 做 。 


我 们 将 pghost2 上 备 库 的 此 参数 设置 成 1 分 钟 ， 
如 下 所 示 : 











recovery_min apply_delay = imin 








以 上 代码 将 主 库 和 备 库 的 延迟 时 间 设 置 为 1 分 
钟 ， 之 后 重 局 备 库 使 配置 生效 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]$ pg_ctl restart 


加 在 主 库 上 创建 test_delay 测 试 表 ， 如 下 所 
修 \: 





post gres=# CREATE TABLE test_delay(id int4,create time timest 
CREATE TABLE 


这 时 备 库 上 等 了 大 概 一 分 钟 才 看 到 这 张 表 ， 接 


看 在 主 库 上 插入 一 条 数据 ， 如 下 所 示 : 








postgres=# INSERT INTO test_ delay(id,create time) VALUES (1,nc 
INSERT © 1 





在 备 库 查 询 表 test_delay 数 据 ， 一 开始 返回 为 
空 ， 反 复 执 行 以 下 SQL 直到 返回 以 下 数据: 


postgres=# SELECT now(),create time FROM test_delay; 
-[ RECORD 1 ]------------------------------ 

Now | 2017-09-10 16:18:50.414074+08 

create_ time | 2017-09-10 16:17:50 


从 以 上 时 间 看 出 正好 相差 一 分 钟 ， 也 就 是 说 主 
库 插 入 这 条 数据 后 ， 过 了 一 分 钟 堪 右 备 库 才 能 碍 询 
到 这 条 数据 。 


接 看 模拟 数据 误 删 场景 ， 假 如 由 于 误 操 作 误 删 
本 这 张 表 ， 是 否 能 在 备 库 找 回 数据 ? 


主 库 上 删除 这 张 表 ， 如 下 所 示 : 





postgres=# DROP TABLE test delay ，; 
DROP TABLE 


尽 党 主 库 删 除了 此 表 ， 但 从 库 上 这 张 表 依 然 存 
在 ， 并 且 数 据 也 存在 ， 如 下 所 示 : 


postgres=# SELECT * FROM test_delay; 
id | create_ time 
i ET 
1 | 2017-09-10 16:17:50 
(1 row) 


这 样 ， 可 以 在 延迟 时 间 窗 口内 将 表 test_delay 的 
表 结 构 和 数据 进行 备份 ， 再 导入 到 主 库 ， 从 而 找 回 
误 删 除 的 表 。 


sy) 注意 fecovety_tmin_apply_delay 参 数 设 置 
值 过 大 会 使 备 库 的 pe_wal 日 志 因 保留 过 多 的 WAL 日 
志文 件 而 占用 较 大 硬盘 空间 ， 因 此 设置 此 参数 时 需 
要 考虑 pg_wal 目 录 可 用 空间 大 小 ， 当 然 ， 如 果 设 置 
得 太 小 ， 留 给 恢复 的 时 间 究 口 太 短 可 能 起 不 到 数据 
湾 复 的 用 途 。 


12.6.3 recovery_min_apply_delay 参 数 对 同步 复制 
的 影 啊 


recovery_min_apply_delay 人 参数 对 同步 复制 影 啊 
如 何 ? 大 家 知道 同步 复制 Synchronous_commit 参 数 
需 配置 成 on 或 者 remote_apply，on 选 项 意思 是 主 库 
上 提交 的 事务 后 会 等 待 备 库 接收 WAL 日 志 流 并 写 入 
WAL 日 志文 件 后 再 问 客 户 端 返回 成 功 ， 
remote_apply 则 更 进一步 ， 主 库 上 提交 的 事务 后 会 





等 待 备 库 接收 WAL 日志 流 并 写 入 WAL 日 志 文件 同 
时 应 用 完成 WAL 日 志 流 后 再 回 客 户 端 返回 成 功 ， 关 
于 此 参数 详细 解释 可 查阅 12.2.1 节 。 


这 里 对 延迟 备 库 场景 下 synchronous_commit 配 
置 为 on 和 remote_apply 的 差异 进行 测试 。 


场景 一 : Synchronous_commit 配 置 为 on， 同 时 
recovery_min_apply_delay 配 置 成 1 分 钟 。 


synchronous_commit 参 数 调 整 完 后 需要 执行 
pg_ctlreload 香 狐 载 入 配置 使 参数 生效 ， 同 时 
recovery_min_apply_delay 配 置 调整 后 需要 重启 备 库 
使 配置 生效 。 


测试 前 先 在 主 库 上 清空 表 test_delay 数 据 ， 之 后 
在 主 库 上 插入 一 条 数据 ， 如 下 所 示 : 





postgres=# INSERT INTO test_ delay(id,create time) VALUES(1L, now 
INSERT © 1 





之 后 在 备 亩 上 但 询 这 条 记录 ， 依 然 需 要 一 分 钟 
之 后 这 条 数据 才能 查询 到 ， 如 下 所 示 : 


postgres=# SELECT now(),create time FROM test_delay; 
-[ RECORD 1 ]------------------------------ 
now | 2017-09-10 16:58:22.526087+08 


create time | 2017-09-10 16:57:22 


也 就 是 说 延迟 备 库 场景 ，synchronous_commit 
配置 为 on 时 和 有 并 步 流 复 制 一致 。 


场景 二 : Synchronous_commit 配 置 为 
remote_apply， 同 时 recovery_min_apply_delay 配 置 


成 1 分 钟 。 


主 库 上 执行 以 下 SQL， 辣 test_delay 表 中 插入 一 
条 数据 ， 如 下 所 示 : 


Pe # INSERT INTO test_delay(id,create time) VALUES(2,nov 
-注意 这 条 命令 被 阻塞 


这 时 发 现 SQL 处 于 阻塞 状态 ， 我 们 把 SQL 计时 
器 打开 ， 看 看 等 了 多 久 ， 主 库 上 再 插入 一 条 数据 ， 
如 下 上 所 示 : 


postgres=# \timing 

Timing is on. 

postgres=# INSERT INTO test_ delay(id,create time) VALUES(3, now 
INSERT © 1 

Time: 60008.295 ms (01:00.008) 


以 上 看 出 ，SQL 执 行 时 间 为 60 秒 ， 一 条 普通 的 
INSERT 语 句 需要 执行 60 秒 的 原因 ， 根据 


synchronous_commit 参 见 remote_apply 选 项 的 解释 ， 
因为 主 库 提交 INSERT 语 句 后 ， 会 等 待 同 步 备 库 接 
收 这 条 INSERT 语 名 的 WAL 日志 流 并 且 写 入 备 库 
WAL 日 志文 件 ， 同 时 备 库 完 成 应 用 WAL 使 得 这 条 
记录 在 备 库 可 见 后 主 库 才 癌 客 户 端 返回 成 功 ， 而 此 
时 则 步 备 库 又 设置 了 WAL 应 用 延迟 一 分 钟 ， 了 解 了 
这 些 原 理 之 后 ， 对 于 以 上 两 个 测试 场景 的 又 异 束 很 
好 理解 了 。 


根据 以 上 测试 ， 对 于 延 人 运 备 库 场景 ， 
synchronous_commit 配 置 为 on 时 和 措 步 流 复 制 一 
致 ，synchronous_commit 配 置 为 remote_apply 时 ， 主 
库 上 所 有 的 写 操作 将 被 阻 坚 一 定时 间 ， 被 阻塞 的 时 
间 正 好 是 同步 备 库 recovery_min_apply_delay 参 数 配 
置 值 ， 因 此 synchronous_commit 参 数 配置 为 
J 的 同步 流 复 制 环境 应 避免 使 用 延 运 备 
EE 

















12.7 ”同步 复制 优选 提交 


本 草 之 前 介绍 的 内 容 都 是 基于 一 主 一 备 流 复制 
环境 ， 实 际 上 PostgreSQL 文 持 一 主 多 备 流 复制 ， 并 
且 可 以 设置 一 个 或 多 个 同步 备 节 点 ，PostgreSQL9.6 
版 本 时 只 支持 基于 优先 级 的 同步 备 库 方式 ， 
PostgreSQL10 版 本 的 synchronous_standby_names 参 
数 新 增 ANY 选 项 ， 可 以 设置 任意 一 个 或 多 个 备 库 为 
同步 备 库 ， 这 种 基于 Quorum 的 同步 备 库 方式 是 
PostgreSQL10 版 本 的 一 个 重要 新 特性 ， 被 称 为 同步 
复制 优选 提交 ， 本 小 节 将 详细 介绍 这 一 新 特性 。 


这 一 小 市 新 增 一 台 主 机 名 为 pghost3 的 虚拟 机 ， 
演示 一 主 两 从 的 场景 ， 实 验 坏 境 详 见 表 12-4。 


表 12-4 一 主 多 备 流 复 制 实验 环境 


主 六 展 作 永 统 ”Postgrosat 版 
备 节 点 1 192.168.28.75 PostgreSQL10 


初始 环境 为 一 主 两 备 异 步 流 复 制 环境 ， 主 库 上 
查询 pg_stat_replication 视 图 ， 如 下 所 示 : 


























postgres=# SELECT pid,usename,application_name,client_ addr, sta 
FROM pg_stat_replication ， 


pid | usename | application name | client_addr | state 
和 Te 


26030 | repuser | node2 |192.168.28.75 | streaming 
2799 | repuser | node3 |192.168.28.76 | streaming 
(2 rows) 


根据 以 上 查询 结果 ，node2 和 node3 为 两 个 备 节 
点 ，sync_state 显 示 了 同步 方式 为 异步 方式 。 


在 演示 同步 复制 优选 提交 之 前 ， 我 们 先 了 解 


synchronous_standby_names 参 数 。 








12.7.1 synchronous_standby_names 参 数 详解 


synchronous_standby_names (string) 参数 用 来 
指定 同步 备 库 列 表 ，PostgreSQL10 版 本 此 参数 值 有 
以 下 三 种 方式 : 


* standby_name[，...] 
* [FIRST]Inum_sync (standby_name[, ...]) 
+ ANY num_sync (standby_name[, ...]) 


pe 


Synchronous_standby_names=standby_name[，.…| 


standby_name 指 流 复 制备 库 的 名 称 ， 这 个 名 称 


由 备 节 点 $PGDATAAecovery.conf 配 置 文件 中 的 
primary_conninfo 参 数 application_name 选 项 指定 ; 
可 以 设置 多 个 备 库 ， 用 逐 扎 分隔 ， 列表 中 的 第 es 
备 库 为 同步 备 库 ， 第 二 个 以 后 的 备 库 为 潜在 的 同步 
备 库 ，9.5 版 本 和 9.5 之 前 版 本 最 多 允许 设置 一 个 同 
步 备 库 。 


例如 配置 为 's1，s2'"， 其 中 s1 为 同步 备 库 ，s2 为 
ee 
车 。 








方式 二 : synchronous_standby_names= 
[FIRSTInum_sync (standby_name[, ...]) 


FIRST 表 示 基 于 优先 级 方式 设置 流 复制 备 库 ， 
备 库 的 优先 级 按 备 库 列 表 的 前 后 顺序 排序 ， 列 表 中 
越 往 前 的 备 库 优先 级 越 高 ，num_sync 指 同步 备 库 个 
数 ， 配 站 示例 如 下 所 示 : 








synchronous_standby_names =“ FIRST 2(S1，S2，S3) 





以 上 表示 设置 两 个 同步 备 库 ， 其 中 sS1 和 s2 为 同 
步 备 库 ， 因 为 S1、s2 出 现在 列表 的 最 前 面 ， 当 主 库 
上 提交 事务 时 ， 人 至 少 需 要 等 待 s1 和 s2 备 库 完成 接收 
WAL 日 志 流 并 写 入 WAL 日 志文 件 后 再 向 客户 端 返 
回 成 功 ; 而 s3 为 潜在 的 同步 备 库 ， 当 sl 或 2 不 可 用 


时 s3 将 升级 成 为 同步 备 库 。 


方式 三 : Synchronous_standby_names=ANY 
num_sync (standby_name[, ...]) 


ANY 表 示 基 于 quorum 方 式 设置 流 复制 备 库 ， 
同步 备 库 数量 为 任意 num_sync 个 ， 假 如 有 四 个 备 库 
在 运行 ， 分 别 为 Ss1、s2、s3、s4， 设 置 参 数 如 下 所 


一 < 


修 : 





Synchronous_standby_names = 'ANY 2 (S1，S2，S3) 


ANY 2 表示 设置 列表 中 任意 两 个 为 同步 备 库 ， 
当主 库 上 提交 事务 时 ， 至 少 需要 等 竺 列表 中 任意 两 
个 备 库 完 成 接收 WAL 日 志 流 并 写 入 WAL 日 志文 件 
后 再 回 客 户 端 返 回 成 功 ; S4 为 异步 备 库 ， 因 为 S4 不 
在 列表 中 。 


接 下 来 对 基于 优先 级 同步 备 库 和 基于 Quorum 
的 同步 备 库 进 行 演示 。 


12.7.2 ”基于 优先 级 的 同步 备 库 





pghost1 主 机 上 设置 postgresql.conf， 配 置 以 下 
数 : 


少 


Synchronous_standby_names = 'first 1 (node2,node3) 











以 上 设置 使 用 了 first 1， 表 示 列 表 中 第 一 个 备 
库 为 同步 备 库 ， 列 表 中 其 他 备 库 为 潜在 同步 备 库 ， 
当 node2 被 关闭 时 ，node3 会 升级 成 为 同步 备 库 ， 后 
面 会 通过 示例 验证 。 


之 后 执行 reload 使 配置 生效 ， 如 下 所 示 : 








[postgres@pghost1 pg_root]1$ pg_ctl1 reload 
server signaled 








在 主 库 上 和 奉 看 参数 ， 验 证 配置 是 否 生 效 ， 如 下 
所 示 : 








postgres=# Show synchronous_standby_names ， 
Synchronous_standby_names 
first 1 (node2,node3) 

(1 row) 








在 主 库 上 查询 pg_stat_replication 视 图 ， 如 下 所 





人 小: 





postgres=# SELECT pid,usename,application name,client_addr,sta 
pid | usename | application name | client_addr | state 

总 入 并 总 作证 并 半生 证 六 生 吉 人 证 宫 及 加 
1536 | repuser | node2 | 192.168.28.75 | streamin 


2799 | repuser | node3 | 192.168.28.76 | streamin 
(2 rows) 





可 以 发 现 sync_state 字 段 有 了 变化 ，node2 的 
sync_state 由 之 前 的 async 变 成 了 sync， 同 时 node2 的 
sync_priority 优 先 级 为 1;， node3 的 synce_state 由 之 前 
的 async 变 成 了 现在 的 potential， 同 时 node3 的 
sync_priority 优 先 级 为 2， 大 家 知道 Sync 表示 同步 备 
库 ，potential 为 潜在 同步 备 库 。 


接着 关闭 node2 上 的 数据 库 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 





再 次 在 主 库 上 查看 pg_stat_replication 视 图 ， 如 
下 所 示 : 





postgres=# SELECT pid,usename,application_ name,client addr, sta 


pid | usename | application name | client addr | state 
和 

2799 | repuser | node3 | 192.168.28.76 | Strear 
(1 row) 


可 以 友 现 node3 的 sync_state 转 换 成 sync， 升 级 
为 同步 备 库 。 


接着 往 主 库 上 插入 一 条 数据 ， 如 下 所 示 : 





postgres=# INSERT INTO test delay(id,create time) VALUES (4,nc 
INSERT © 1 








node2 备 库 关 闭 后 ， 主 库 上 的 写 操作 不 受 影 
啊 ， 将 node3 备 库 也 关闭 ， 如 下 所 示 : 


[postgres@pghost3 pg_root]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 








再 次 往 主 库 上 插入 数据 时 处 于 等 待 状态 ， 如 下 
所 示 : 





postgres=# INSERT INTO test delay(id,create time) VALUES (5,nc 
- -注意 这 条 命令 被 阻塞 。 





两 个 备 库 关闭 后 ， 主 库 上 的 INSERT 语 句 将 处 
于 等 竺 状态 。 


设置 synchronous_standby_names='first 
1 (node2，node3) '， 当 同步 备 库 node2 关 闭 时 主 库 
写 操作 不 受 影响 ， 同 时 node3 由 潜在 备 库 升 级 为 同 
步 备 库 ;， 当 两 个 备 库 都 关闭 时 主 库 上 的 写 操作 处 于 


等 行 状态 。 














12.7.3 ”基于 Quorum 的 同步 备 库 


基于 Quorum 的 同步 备 库 是 PostgreSQL10 的 新 特 
性 ， 被 称 为 同步 复制 优选 提交 ， 具 体 是 指 
synchronous_standby_names 参 数 ANY 选 项 新 增 配 置 
方式 ， 可 以 设置 任意 一 个 或 多 个 备 库 为 同步 备 库 ， 
主 库 设置 以 下 参数 ， 如 下 所 示 : 





synchronous_standby_names = 'ANY 2 (node2,node3)' 





以 上 设置 同步 备 库 列表 中 任意 两 个 为 同步 备 
库 ， 也 就 是 主 库 上 的 事务 需 等 竺 任意 两 个 同步 备 库 
完成 接收 WAL 日 志 流 并 写 入 WAL 日 志文 件 后 再 问 
客户 病 返 回 成 功 ， 可 以 推测 ，node2 和 node3 两 个 同 
步 备 库 中 任意 一 个 关闭 时 ， 主 库 上 的 写 操 作 将 处 于 
了 咀 徐 状态 。 


参数 设置 后 执行 reload 操 作 使 配置 生效 ， 如 下 
所 示 : 








[postgres@pghost1 pg_root]1$ pg_ctl1 reload 
server signale 





_， 主 库 查询 此 参数 ， 验 证 配置 是 否 生效 ， 如 下 所 
修 \: 


postgres=# Show Synchronous_standby_names ;， 
Synchronous_standby_names 
ANY 2 (node2,node3) 

(1 row) 








从 上 看 出 配置 已 生效 ， 之 后 在 主 库 上 查询 
pg_stat_replication 视 图 ， 如 下 所 示 : 











postgres=# SELECT pid,usename,application_name,client addr, sta 
FROM pg_stat_replication ， 


pid | usename|application name| client addr | state | 
i 亲 二 和 i Ne A 在 2 

26906 | repuser | node3 | 192.168.28.76 | streami 

26926 | repuser | node2 | 192.168.28.75 | streami 
(2 rows) 





从 以 上 看 出 ，node2 和 node3 节 点 的 sync_state 字 
段 都 为 guorum， 并 且 sync_priority 优 先 级 都 为 1〈 基 
于 Quorum 的 同步 备 库 sync_priority 的 值 对 备 库 无 影 
啊 ， 可 忽略 》》， 接 着 关闭 一 个 同步 备 库 ， 测 试 主 库 
上 的 写 事 务 是 人 否 会 有 影响 ， 关 闭 node2， 如 下 所 
人 小 : 








[postgres@pghost2 pg_root]$ pg_ct1l stop 
waiting for server to shut down.... done 
server stopped 








主 库 上 再 次 查询 pg_stat_replication 视 图 ， 只 有 


node3 这 条 记录 了 ， 如 下 所 示 : 





postgres=# SELECT pid,usename,application_name,client_ addr, sta 
FROM pg_stat_replication ， 
pid | usename | application name | client addr | state | s 
a 站 
26906 | repuser | node3 | 192.168.28.76 | streaming 
(1 row) 





之 后 在 主 库 上 壬 试 插入 一 条 记录 ， 如 下 所 示 : 








postgres= # INSERT INTO test_delay(id,create time) VALUES(5,now 
- -注意 这 条 命令 被 阻塞 





主 库 上 的 INSERT 命 令 处 于 阻塞 状态 ， 正 好 验 
证 了 本 小 节 的 推测， 由 于 设置 了 'ANY 2 Cnode2， 
node3) '， 主 库 上 的 事务 需 等 竺 任意 两 个 同步 备 库 
完成 接收 WAL 日 志 流 并 写 入 WAL 日志 文件 后 再 加 
客户 端 返回 成 功 ， 当 其 中 任意 一 个 同步 备 库 关 闭 
时 ， 主 库 将 处 于 阻塞 状态 。 











12.8 级 联 复制 


上 一 节 搭 建 的 一 主 两 备 流 复制 环境 ， 两 个 备 库 
都 是 直 连 主 库 的 ， 实 际 上 PostgreSQL 支 持 备 库 既 可 
接收 主 库 发 送 的 将 WAL， 也 支持 WAL 发 送 给 其 他 
备 库 ， 这 一 特性 称 为 级 联 复制 〈Cascading 
Replication〉， 这 一 小 节 介 绍 级 联 复制 的 物理 染 构 
和 部 贰 。 











12.8.1 级 联 复 制 物理 架构 


介绍 级 联 复制 物理 染 构 之 前 ， 先 看 下 上 一 市 部 
普 的 一 主 两 备 流 复制 物理 架构 ， 如 图 12-3 所 示 。 


机 房 A 





图 12-3 ”一 主 两 备 流 复 制 物理 架构 图 





上 图 中 Master 为 主 库 ， 两 个 备 库 分 别 为 Savel、 
Slave2，Savel 和 Slave2 都 通过 流 复 制 直 连 Master,， 
三 个 数据 库 主 机 都 位 于 机 房 A。 


级 联 复 制 物理 架构 图 如 12-4 所 示 。 







流 复制 


流 复制 






级 联 备 库 


图 12-4 一 主 两 备 级 联 流 复制 物理 架构 图 


上 图 的 级 联 复制 架构 与 图 12-3 中 染 构 的 主要 区 
别 在 于 Slave2 备 库 不 是 直 连 Master 主 库 ， 而 是 连接 
到 Slave1 备 库 ，Slave1 备 库 一 方面 接收 来 和 目 Master 发 
送 的 WAL 日 志 ， 另 一 方面 将 WAL 日 志 友 送 给 Slave2 
备 库 ， 将 既 接收 WAL 同 时 又 发 送 WAL 的 备 库 称 为 
级 联 备 库 (cascading standby) ， 这 里 Slavel1 束 是 级 
联 备 库 ， 另 外 ， 将 直 连 到 主 库 的 备 库 称 为 上 游 节 
点 ， 连 接 到 上 游 节 点 的 其 他 备 库 称 为 下 游 节 点 。 





级 联 复制 主要 作用 在 于 : 
.小幅 降 低 主 库 CPU 压力 。 
“ 减少 主 库 带宽 压力 O 


异地 建立 多 个 备 库 时 ， 由 于 只 需要 一 个 备 库 
进行 跨 机 房 流 复制 部 署 ， 其 他 备 库 可 连接 到 这 个 级 
联 备 库 ， 这 种 部 署 方案 将 大 幅 降 低 跨 机 房 网 络 流 
量 。 
级 联 复制 一 个 典型 应 用 场景 为 一 主 两 备 ， 其 中 
一 个 备 库 和 主 库 同 机 房 部 著 以 实现 本 地 启 可 用 ， 男 


一 备 库 跨 机 房 部 车 以 实现 异地 容 灾 ， 如 图 12-5 所 
不 。 








机 房 B 





图 12-5 ”本 地 高 可 用 十 异地 容 灾 物理 架构 图 


上 图 中 Slavel 和 Master 为 同 机 房 ， 之 间 通 过 流 
复制 实现 本 地 高 可 用 《第 14 章 将 介绍 PostgreSQL 高 
可 用 方案 ) ，Slave2 为 异地 机 房 ， 通 过 级 联 复 制 实 
现 异 地 容 灾 。 


12.8.2 ”级 联 复制 部 署 





这 一 小 节 将 演示 级 联 复制 的 部 署 ， 测 试 环境 详 
见 表 12-5。 


表 12-5 ”级 联 复制 实验 环境 


主 机 主机 名 IP 地 址 操作 系统 PostgreSQL 版 本 
Master 192.168.28.74 CentOS6.9 PostgreSQL10 
Slavel 192.168.28.75 CentOS6.9 PostgreSQL10 


物理 部 署 图 详 见 图 12-6。 





机 房 A 








流 复 制 


流 复 制 


级 联 备 库 


图 12-6 ”级 联 复制 物理 架构 图 


计划 部 团 Slave1l 为 级 联 复制 节点 ，Slave2 为 备 
节点 并 上 联 到 Slavel。 


自 先 部 普 Slavel1， 使 用 异步 流 复 制 方式 ， 
Slavel 的 recovery.conf 配 置 如 下 所 示 : 





recovery_target timeline = "Latest'， 
standby_mode = on 
primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser 








Slavel 部 团 完 成 后 ， 检 查 流 复 制 状态 ， 如 果 一 
切 正 昌 接着 部 置 Slave2， 重 做 Slave2 备 库 ， 如 下 所 
人 外 : 





[postgres@pghost3 pg1i0]$ pg_basebackup -D /database/pg1i0/pg_ro 
pg_basebackup: initiating base backup, waiting for checkpoint 
pg_basebackup: checkpoint completed 

pg_basebackup: write-ahead log start point: 4/4E000028 on time 
pg_basebackup: starting background WAL receiver 
9424317/9424317 kB (100%), 3/3 tablespaces 

pg_basebackup: write-ahead log end point: 4/4E004AA8 
pg_basebackup: waiting for background process to finish Strear 
pg_basebackup: base backup completed 





配置 Slave2 的 recovery.conf 配 置 文件 ， 如 下 所 
人 小 : 





recovery_target timeline = 'latest' 
standby_mode = on 
primary_conninfo = 'host=192.168.28.75 port=1921 user=repuser 





之 后 启动 Slave2， 如 下 所 示 : 





[postgres@pghost3 pg_root]$ pg_ctl] start 





检查 Slave2 日 志 ， 如 果 有 报错 则 根据 错误 信息 
排 错 ， 以 上 是 级 联 复制 部 普 的 所 有 步骤 。 


在 Master 查 询 pg_stat_replication 视 图 ， 如 下 所 


a 


修 : 





postgres=# SELECT pid,usename,application_ name,client _ addr, sta 
FROM pg_stat_replication ， 


pid |usename | application_name | client_addr | Ea 
i te ed ee de me se ee ee te 

25041 | repuser | slavel | 192.168.28.75 | wy 
(1 row) 





以 上 显示 了 一 条 记录 ， 为 Master 到 Slave1 的 
WAL 发 送 进 程 。 


在 Slavel 查 询 pg_stat_replication 视 图 ， 如 下 所 


a 


修 : 





postgres=# SELECT pid,usename,application_name,client addr, sta 


FROM pg_stat_replication ， 


pid | usename | application_name | client addr | state 
六 TT 

5002| repuser| slave2 |192.168.28.76|streaming| as 
(1 row) 





以 上 显示 了 Slavel 到 Slave2 的 WAL 发 送 进程 ， 
可 见 Slavel 上 也 有 了 WAL 发 送 进 程 。 


接着 做 个 数据 测试 ， 在 Master 上 创建 一 张 表 ， 
并 插入 数据 ， 如 下 上 所 示 : 





[postgres@pghost1 ~]$ psql postgres postgres 
postgres=# CREATE table t_sr6(id int4); 
CREATE TABLE 

postgres=# INSERT INTO t_sr6 VALUES (1); 
INSERT © 1 





在 Slavel 上 验证 数据 ， 如 下 所 示 : 





[postgres@pghost2 pg_root]$ psql postgres postgres 
postgres=# SELECT * FROM t_sr6; 

id 

1 

(1 row) 





Slavel1 上 有 了 表 t_sr6， 在 Slave2 上 验证 数据 ， 
如 下 所 示 : 





[postgres@pghost3 pg_root]$ psql postgres postgres 
postgres=# SELECT * FROM t_sr6; 

id 

1 

(1 row) 





Slave2 上 也 有 了 数据 。 


12.9 ” 流 复 制 维护 生产 案例 


PostgreSQL 早 在 9.0 版 本 开始 文 持 流 复 制 ， 笔 者 
在 维护 流 复 制 生产 环境 过 程 中 曾 踩 过 不 少 “ 陷 阱 ”， 
这 里 选择 其 中 三 个 流 复 制 典型 维护 条 例 和 大 家 分 
享 。 


12.9.1 案例 一 : 主 库 上 创建 表 空 间 时 备 库 宕 机 


创建 表 空 间 是 典型 的 维护 操作 之 一 ， 比 如 需要 
新 部 普 一 个 项 目 ， 需 要 创建 一 个 新 数据 库 ， 这 时 需 
要 创建 一 个 新 表 空 间 ; 或 者 数据 库 新 加 了 人 硬盘 ， 需 
要 创建 新 表 空 间 指 癌 新 的 便 盘 。 创 建 表 空间 前 需要 
先 创建 对 应 的 表 空 间 目 录 ， 沉 复制 环境 也 是 如 此 ， 
只 是 在 主 库 创建 表 空 间 之 前 震 在 主 库 、 备 库 主 机 上 
提前 创建 好 表 空 间 目 录 ， 如 果 筷 记 在 备 库 上 创建 表 
空间 目录 ， 当 在 主 库 上 创建 表 空 间 时 备 库 会 宕 机 ， 
这 是 流 复 制 维护 过 程 中 一 个 典型 案例 ， 刚 接触 
PostgreSQL 不 久 时 笔者 在 生产 环境 维护 时 经 历 过 这 
种 情况 ， 好 在 当时 备 库 上 没有 只 恋 业 务 接 入 ， 没 有 
对 生产 系统 造成 影 啊 。 


接 下 来 模拟 这 一 案例 ， 测 试 环境 为 一 主 一 备 异 
步 流 复制 环境 ，pghost1 为 主 库 ，pghost2 为 备 库 ， 




















如 下 所 示 : 





postgres=# SELECT pid,usename,application_name,client_ addr, sta 
FROM pg_stat_replication ， 


pid | usename | application name | client_addr | state 
a 中 

24924| repuser | node2 |192.168.28.75| streaming 
(1 row) 





计划 在 主 库 上 新 增 tbs_his 表 空间 ， 在 主 节 点 
pghostl1 上 创建 表 空 间 目 录 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ mkdir -p /database/pg10/pg_tbs/tbs_his 





之 后 在 主 库 上 创建 tbs_his 表 空间 ， 如 下 所 示 : 





postgres=# CREATE TABLESPACE tbs_his OWNER pguser LOCATION '/d 
CREATE TABLESPACE 





这 时 ， 发 现 备 库 实 例 已 经 罕 机 ， 备 库 数据 库 错 
误 日 忘 如 下 所 示 : 





2017-09-12 16:35:11.962 CST,,,16742,,59b79b9f.4166,6,,2017-09- 
1/0,0,FATAL, 58PO1, "directory ""/database/pg1i0/pg_tbs/tbs_his"" 
2017-09-12 16:35:11.962 CST,,,16740,,59b79b9f.4164,3,,2017-09- 
2017-09-12 16:35:11.963 CST,,,16740,,59b79b9f.4164,4,,2017-09- 
2017-09-12 16:35:11.971 CST,,,16740,,59b79b9f.4164,5,,2017-09- 


二 一 


铬 误 日 专 提 示 表 空间 目 
三 sigionu SiS 二 庆生 ， 由 于 主 库 创 
建 表 空 间 时 备 库 主机 上 没有 创建 相应 的 表 空间 目 
录 ， 导 致 备 库 实 例 异 第 关 财 ， 根 据 数据 库 日 志 提 
示 ， 在 备 库 上 创建 相应 表 衬 间 目 录 ， 之 后 重 局 备 库 
即 可 ， 如 下 所 示 : 











[postgres@pghost2 ~]$ mkdir -p /database/pg1i0/pg_tbs/tbs_his 


在 pghost2 上 局 动 备 库 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ pg_ctl] start 





这 时 查看 备 库 数 据 库 日 志 ， 无 错误 信息 ， 并 且 
主 库 上 可 以 查 到 WAL 发 送 进程 ， 如 下 所 示 ; 


postgres=# SELECT pid,usename,application_name,client_ addr, sta 
FROM pg_stat replication ， 


pid | usename | application name | client addr | stat 
i Ee ee sr i ee de ee th be i 

26841| repuser | node2 | 192.168.28.75 | streami 
(1 row) 


说 明 寞 步 流 复制 环境 已 经 恢复 。 
案例 一 属于 流 复 制 生产 环境 典型 窒 例 ， 因 为 在 





主 库 上 创建 表 空 间 时 ， 很 容易 乐 记 提前 和 多 在 所有 备 
库 主 机 上 创建 表 空 间 目录 ， 生 产 系 统 维护 操作 实施 
前 需 再 三 核实 脚本 ， 同 时 做 好 数据 库 监 控 ， 如 有 羡 
常 及 时 发 现 并 修复 。 














12.9.2 ”案例 二 : 备 库 查 询 被 中 止 


部 普 流 复制 环境 后 ， 备 库 可 提供 只 读 操 作 ， 通 
党 会 将 一 些 执行 时 间 较 长 的 分 析 任 务 、 统 计 SQL 跑 
在 备 库 上 ， 从 而 减轻 主 库 压 力 ， 在 备 库 上 执行 一 些 
长 时 间 SQL 时 ， 可 能 会 出 现 以 下 错误 并 被 中 止 : 


ERROR: canceling statement due to conflict with recovery 
DETAIL: User query might have needed to see row versions that 


根据 报错 信息 ， 在 主 库 上 执行 长 时 间 查 询 过 程 
中 ， 由 于 此 查询 涉及 的 记录 有 可 能 在 主 库 上 人 被 更 新 
或 删除 ， 根 据 PostgreSQL 的 MVCC 机 制 ， 更 新 或 删 
除 的 数据 不 是 立即 从 物理 块 上 删除 ， 而 是 之 后 
autovacuum 进 程 对 老 版 本 数据 进行 VACUUM， 主 
库 上 对 更 新 或 删除 数据 的 老 版 本 进行 VACUUM 
后 ， 从 库 上 也 会 执行 这 个 操作 ， 从 而 与 从 库 当 前 奉 
询 产生 冲突 ， 导 致 得 询 被 中 断 并 抛 出 以 上 错误 。 


实际 上 PostgreSQL 提 供 了 配置 参数 来 减少 或 避 




















免 这 种 情况 出 现 的 概率 ， 主 要 包括 以 下 两 个 参数 : 


. max_standby_stteaming delay: 此 参数 默认 为 
30 秒 ， 当 备 库 执行 SQL 时 ， 有 可 能 与 正在 应 用 的 
WAL 发 生 冲 突 ， 此 查询 如 果 30 秒 没有 执行 完成 则 被 
中 止 ， 注 意 30 秒 不 是 备 库 上 单个 查询 允许 的 最 大 执 
行 时 间 ， 有 是 指 当 备 库 上 应 用 WAL 时 允许 的 最 大 WAL 
延迟 应 用 时 间 ， 因 此 备 库 上 查询 的 执行 时 间 有 可 能 
不 到 这 个 参数 设置 的 值 就 被 中 止 了 ， 此 参数 可 以 设 
置 成 -1， 表 示 当 从 库 上 的 WAL 应 用 进程 与 从 库 上 执 
行 的 查询 冲突 时 ，WAL 应 用 进程 一 直 等 待 直到 从 库 
查询 执行 完成 。 


hot_standby_feedback: 默认 情况 下 从 库 执行 
查询 时 并 不 会 通知 主 库 ， 设 置 此 参数 为 on 后 从 库 执 
行 查询 时 会 通知 主 库 ， 当 从 库 执行 查询 过 程 中 ， 主 
库 不 会 清理 从 库 需 要 的 数据 行 老 版 本 ， 因 此 ， 从 库 
上 的 查询 不 会 被 中 止 ， 然 而 ， 这 种 方法 也 会 市 来 一 
定 的 苏 端 ， 主 库 上 的 表 可 能 出 现 膨胀 ， 主 库 表 的 脱 
胀 程度 与 表 上 的 写 事务 和 从 库 上 大 查询 的 执行 时 间 
有 关 ， 此 参数 默认 为 off。 


接 下 来 模拟 这 一 案例 ， 测试 环境 为 一 主 一 备 异 
步 流 复制 环境 ，pghost1 为 主 库 ，pghost2 为 备 库 ， 
调整 备 库 postgresql.conf 以 下 参数 : 





max_standby_streaming_delay = 10s 





为 了 测试 方便 ， 将 
max_standby_streaming_delay 参 数 降低 到 10 秒 ， 调 
整 完 成 后 执行 reload 使 配置 生效 ， 如 下 所 示 : 





[postgres@pghost2 pg_root]$ pg_ctl1 reload 
server signaled 





编写 update_per2.sql， 如 下 所 示 : 





\set v_id random(1,1000000) 
update test per2 set flag='1' where id=:v_id; 





pghost1 执 行 pgbench 压 力 测试 脚本 ， 执 行 时 间 
为 120 秒 ， 如 下 所 示 : 





pgbe nch -c 8 -T 120 -d postgres -U postgres -n N -M prepared 





压力 测试 过 程 中 ， 在 备 库 上 执行 以 下 得 询 ， 如 
下 





postgres=# \timing 

Timing is on. 

postgres=# SELECT pg_sleep(15),count(*) FROM test_per2; 
ERROR: canceling statement due to conflict with recovery 
DETAIL: User query might have needed to see row versions that 


Time: 10433.102 ms (00:10.433) 


以 上 代表 统计 表 test_per2 的 数据 量 ， 同 时 使 用 


有 两 种 方式 可 以 避 开 这 一 错误 。 


方式 一 : 调 大 max_standby_streaming_delay 参 
数值 


由 于 设置 了 max_standby_streaming_delay 参 数 
为 10 秒 ， 当 从 库 上 执行 得 询 与 从 库 应 用 WAL 日 志 产 
生 冲 突 时 ， 此 SQL 最 多 执行 到 10 秒 左右 将 被 中 止 ， 
因此 可 以 将 此 参数 值 调 大 或 调整 成 为 -1 绕 开 这 一 错 
误 ， 以 下 将 备 库 此 参数 调 成 60 秒 : 


max_standby_streaming_delay = 60s 
hot_standby_feedback = off 


同时 将 hot_standby_feedback 参 数 设 置 为 off， 调 
整 完成 后 执行 reload 使 配置 生效 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]1$ pg_ctl1 reload 
server signaled 





之 后 再 次 开启 pgbench 压 力 测 试 脚 本 ， 在 从 库 
上 执行 以 下 查询 : 


postgres=# SELECT pg_sleep(15),count(*) FROM test_per2; 
pg_sleep | count 
人 二 
| 10000000 
(1 row) 


Time: 15327.394 ms (00:15.327) 


以 上 查询 正常 执行 15 秒 未 被 中 止 。 
方式 二 : 开局 hot_standby_feedback 参 数 


hot_standby_feedback 参 数 设 置 成 on 后 ， 从 库 执 
行 租 询 时 会 通知 主 库 ， 从 库 执 行 大 租 询 过 程 中 ， 主 
库 不 会 清理 从 库 需 要 用 的 数据 行 老 版 本 ， 备 库 上 开 
局 此 参数 的 代码 如 下 所 示 : 


hot_standby_feedback = on 
max_standby_streaming_delay = 10s 


以 上 设置 hot_standby_feedback 参 数 为 on， 同 时 
将 max_standby_streaming_delay 参 数 设 置 为 10 秒 ， 
调整 完成 后 执行 reload 使 配置 生效 ， 如 下 所 示 : 


[postgres@pghost2 pg_root]$ pg_ctl1 reload 


server signaled 


之 后 再 次 开启 pgbench 压 力 测试 脚本 ， 在 从 库 
上 执行 以 下 查询 ， 如 下 所 示 : 


postgres=# SELECT pg_sleep(15),count(*) FROM test_per2; 
pg_sleep | count 
ee Oe 
| 10000000 
(1 row) 


Time: 15349.958 ms (00:15.350) 





以 下 盘 询 正常 执行 了 15 秒 ， 没 有 被 中 止 。 


以 上 两 种 方式 都 可 以 绕 开 这 一 错误 ， 方 式 一 中 
设置 max_standby_streaming_delay 人 参数 为 -1 有 可 能 造 
成 备 库 上 慢 得 询 由 于 长 时 间 执 行 而 消耗 大 量 主机 资 
源 ， 建 议 根 据 应 用 情况 设置 成 一 个 较 合 理 的 值 ; 方 
式 二 开启 hot_standby_feedback 参 数 可 能 会 使 主 库 某 

















对 流 复制 主 库 、 备 库 慢 查 询 的 监控 ， 并 分 析 是 否 需 
要 人 工 介入 维护 。 


12.9.3 ”案例 三 : 主 库 上 的 WAL 被 覆盖 导致 备 库 不 
可 用 


接 下 来 介绍 的 这 一 案例 也 是 流 复 制 环境 维护 的 


典型 案例 ， 这 一 案例 虽然 时 隔 已 入 ， 笔 者 至 今 仍然 
记得 很 清楚 ， 当 时 一 个 异步 流 复 制备 库 主 机 由 于 便 
件 故 障 宕 机 ， 需 要 做 一 次 停机 硬件 检测 ， 由 于 备 库 
上 没有 业务 在 跑 ， 因 此 白天 就 关闭 了 数据 库 并 进行 
便 件 检测 ， 停 机 检测 大 概 花 了 两 小 时 ， 之 后 再 次 启 
动 备 库 ， 备 库 局 动 后 报 了 如 下 错误 : 








FATAL, XX000, "could not receive data from WAL stream: ERROR: 上 





以 上 错误 是 说 备 库 所 需 的 WAEL 日 志文 件 
000000010000000100000022 被 清除 了 ， 由 于 异步 流 
复制 备 库 关闭 了 两 小 时 ， 在 这 两 小 时 内 主 库 无 法 将 
WAL 日 志 流 发 送 给 备 库 ， 这 两 小 时 产生 的 WAL 保 
存在 主 库 的 WAL 目录 里 ， 如 果 主 库 的 
wal_keep_segment 设 置 比较 小 ， 主 库 可 能 会 敌 兰 并 
循环 使 用 还 没有 发 给 备 库 的 WAL 日 志 ， 当 备 库 局 动 
时 就 会 报 所 需 的 WAL 日 志 被 清除 ， 如 果 主 库 没 有 归 
档 ， 这 种 情况 下 只 能 重 做 备 库 ， 对 于 数据 量 较 大 的 
数据 库 ， 重 做 备 库 的 时 间 将 会 很 长 。 当 时 出 现 此 错 
误 信息 的 数据 库 有 1TB 左 右 ， 一 天 的 归档 量 大 概 在 
600GB， 由 于 归档 量 太 大 ， 当 时 没有 开局 归档 ， 最 
后 通过 重 做 备 库 解 决 。 


为 了 更 易 理解 ， 下 面 模拟 这 个 故障 ， 并 介绍 规 
避 方 法 ， 测 试 环境 为 一 主 一 备 异步 流 复制 环境 ， 











pghost1 为 主 库 ，pghost2 为 备 库 ， 调 整 主 库 
postgresql.conf 参 数 ， 如 下 上 所 示 : 


wal_ keep_segments = 1 
archive_mode = on 
archive_command = "cp %p /archive_dir/pg10/%f' 


将 wal_keep_segments 设 置 成 1， 使 主 库 pg_wal 
目录 保留 较 少 的 WAL 日 志 ， 重 现 本 文本 开头 错误 机 
率 将 更 大 ， 同 时 开局 归档 并 设置 归档 命令 ， 将 WAL 
日 志 归 档 到 目录 /archive_dir/pg10， 之 后 执行 reload 
使 配置 生效 ， 如 下 所 示 : 





[postgres@pghost1 pg_root]$ pg_ctl1 reload 
server signaled 


虽然 wal_keep_segments 参 数 已 设置 成 1， 但 
pg_wal 目 录 下 仍然 有 100 多 个 WAL 日 志文 件 ， 这 时 
在 主 库 上 执行 checkpoint 命 令 清 理 主 库 pg_wal 目 录 
下 的 WAL 日 志文 件 ， 如 下 所 示 : 





postgres=# CHECKPOINT; 
CHECKPOINT 


再 次 查看 pg_wal 目 录 下 的 WAL 日 志文 件 ， 发 现 
大 部 分 WAL 日 志文 件 已 被 清除 ， 只 剩余 少数 几 个 


WAL 日 志文 件 。 
之 后 停 备 库 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 


在 主 库 上 进行 Update 压力 测试 ， 编 写 
update_per2.sql 脚 本 ， 如 下 所 示 : 


\set v_id random(1,1000000) 


update test per2 set flag='1' where id=:v_id; 


执行 pgbench 压 力 测 试 脚本 ， 如 下 所 示 : 


pgbench -c 8 -T 120 -d postgres -U postgres -n N -M prepared - 
[1] 23803 


以 上 pgbench 压 力 测 试 脚本 执行 时 间 为 两 分 
钟 ， 在 这 个 过 程 中 在 主 库 上 执行 少数 几 次 
pg_switch_wal () 和 checkpoint 命 令 ， 如 下 所 示 : 


postgres=# SELECT pg_switch wal(); 
pg_switch_wal 


4/32983D58 


(1 row) 
.， ,多 做 几 次 


postgres=# checkpoint 


CHECKPOINT 
.， ,多 做 几 次 


在 压力 测试 过 程 中 执行 了 pg_switch_wal () 函 


数 ， 切 换 当 前 WAL 日 志 并 归档 到 归档 目录 ， 这 时 查 
看 归档 目录 ， 如 下 所 示 : 


[postgres@pghost1 pg_root]1$ 11 /archive dir/pg10/ 
total 352M 


-rw------- 1 postgres postgres 16M Sep 14 21:34 0000000700000C 
-rw------- 1 postgres postgres 16M Sep 14 21:34 0000000700000C 
省 略 


这 时 WAL 归 档 目录 /archive_dir/pg10/ 下 已 经 有 


了 少量 WAL 日 志文 件 。 


之 后 局 动 备 库 ， 如 下 所 未: 


[postgres@pghost2 ~]$ pg_ct]l start 
server started 


备 库 可 以 局 动 ， 但 是 备 库 数据 库 日 志 报 以 下 错 


误 ， 并 且 备 库 WAL 接 收 进程 无 法 启动 : 


2017-09-14 21:44:34.764 CST,,,25011,,59ba87c2.61b3,2,,2017-09- 


正好 重 现 了 本 节 出 现 的 案例 ， 日 志 显 示 从 库 所 
需 的 000000070000000400000023 日 志文 件 不 存在 。 
接着 查看 主 库 $PGDATA/pg_wal 目 录 ， 人 发 现 
000000070000000400000023 文 件 不 存在 了 ， 如 下 所 
和 修 : 


[postgres@pghost1 pg_root]1$ 1l1 pg_wal/000000070000000400000023 
ls: cannot access pg_wal/000000070000000400000023: No such fil 


查看 归档 目录 /archive_dir/pg10/， 发 现 此 WAL 
文件 已经 归档 到 归档 目录 ， 如 下 所 示 : 


[postgres@pghost1 pg_root]1$ 1l1 /archive dir/pg10/000000070000C 
-rw------- 1 postgres postgres 16M Sep 14 21:34 /archive dir/r 


于 是 将 主 库 归档 目录 下 的 所 有 WAL 日 志文 件 
复制 到 备 库 的 归档 目录 ， 如 下 所 示 : 





[postgres@pghost1 pg_root]$ scp /archive_dir/pg10/* postgres@F 
postgres@pghost2's password: 


之 后 在 备 库 上 设置 recovery.conf 配 置 文件 ， 添 
加 以 下 参数 : 


restore_command = "cp /archive_dir/pg1i0/%f %p' 





restore_command 人 参数 是 指 通过 shell 命 令 从 归档 
目录 中 和 碍 找 WAL 日 志 并 应 用 WAL 日 过， 之 后 重 局 
备 库 ， 如 下 所 示 : 





[postgres@pghost2 pg_root]1$ pg_ctl1 restart 





查看 从 库 日 志 ， 发 现 以 下 信息 : 





2017-09-14 21:55:16.904 CST,,,25224,,59ba8a44.6288,1,,2017-09- 
2017-09-14 21:55:16.911 CST,,,25226,,59ba8a44.628a,1,,2017-09- 
2017-09-14 21:55:16.913 CST,,,25226,,59ba8a44.628a,2,,2017-09- 
2017-09-14 21:55:16.933 CST,,,25226,,59ba8a44.628a,3,,2017-09- 
2017-09-14 21:55:18.052 CST,,,25226,,59ba8a44.628a,4,,2017-09- 
2017-09-14 21:55:18.526 CST,,,25226,,59ba8a44.628a,5,,2017-09- 
2017-09-14 21:55:18.527 CST,,,25224,,59ba8a44.6288,2,,2017-09- 
2017-09-14 21:55:18.552 CST,,,25226,,59ba8a44.628a,6,,2017-09- 
2017-09-14 21:55:18.685 CST,,,25226,,59ba8a44.628a,7,,2017-09- 


2017-09-14 21:55:22.192 CST,,,25264,,59ba8a4a.62b0,1,,2017-09- 





从 以 上 日 志 信 息 可 以 看 到 ， 从 库 从 WAL 归 档 
目录 中 首先 取 到 000000070000000400000023 文 件 进 
行 恢复 ， 之 后 依次 从 归档 目录 获取 其 他 WAL 文 件 进 
行 恢复 ， 直 到 最 后 出 现 “started streaming WAL” 信 息 
时 表示 备 库 已 完全 退 赶 上 主 库 。 


接 看 验证 流 复制 主 备 状态 ， 发 现 备 库 上 已 经 有 











了 WAL 接 收 进程 ， 主 库 上 有 了 WAL 发 送 进 程 ， 说 
明 流 复制 恢复 正常 。 


以 上 步骤 完整 模拟 了 这 一 委 例 ， 根 据 此 案例 发 
生 的 原理 ， 至 少 有 三 种 方法 可 以 应 对 这 种 情况 。 


第 一 种 方法 是 将 主 、 备 库 wal_keep_segments 参 
数 设 置 为 较 大 值 ， 从 而 保证 $8PGDATA/pg_wal 目 杂 
下 留存 较 多 的 WAL 日 志 ， 主 库 WAL 日 志 留 存 越 
多 ， 人 允许 备 库 罕 机 的 时 间 越 长 ， 设 置 此 参数 时 注意 
不 要 将 pg_wal 目 录 返 满 。 


第 二 种 方法 是 主 库 上 开局 归档 ， 如 没有 足够 的 
使 盘 空 间 保留 WAL 归 档 ， 全 少 在 备 库 俘 机 维护 时 临 
时 开局 主 库 归 档 ， 这 样 ， 当 备 库 司 动 时 ， 如 末 所 需 
的 WAL 被 主 库 循 环 清理 反 ， 全 少 可 以 从 归档 里 获取 
所 需 的 WAL 文 件 ， 这 样 比重 做 备 库 省 时 省 力 得 多 。 


第 三 种 方法 是 主 库 设 置 复制 槽 (Replication 
slots) ， 复 制 槽 概念 比 较 难 解释 ， 我 们 从 它 的 作用 
来 理解 它 ， 设 置 了 这 个 特性 后 ， 流 复制 主 库 将 知道 
备 库 的 复制 状态 ， 即 使 备 库 宕 机 主 库 也 知道 备 库 的 
复制 状态 ， 因 此 ， 当 流 复 制备 库 宕 机 时 ， 主 库 不 
会 “删除 ? 掉 备 库 还 没有 接收 的 WAL， 这 里 的 删除 是 
指 黎 盖 循 环 利 用 的 意思 ， 当 从 库 局 动 时 ， 不 会 出 现 
所 需 WAL 日志 被 清理 的 情况 。 当 然 ， 如 有 果 备 库 售 机 




















时 间 太 长 ， 主 库 的 pg_wal 目 录 将 有 可 能 被 撑 满 ， 如 
果 设 置 了 复制 槽 ， 建 议 将 pg_wal 目 录 单 独 放 在 大 容 
量 硬盘 上 。 


下 面 演 示 第 三 种 方式 ， 主 库 postgresql.conf 主 要 
设置 以 下 参数 : 





max_replication_slots = 1 
wal keep_segments = 1 


此 参数 调整 后 需 重 局 数据 库 生 效 。 
主 库 上 创建 物理 复制 权 ， 如 下 所 示 : 


postgres=# SELECT * FROM pg_create physical replication_ slot(' 
slot_name | lsn 

I 和 相 生生 7 全 生生 芭 全 古语 
phy_slot1 | 

(1 row) 


主 库 上 查询 pg_replication_slots， 
pg_replication_slots 视 图 列 出 了 数据 库 中 的 所 有 复制 
情 ， 每 一 个 复制 档 在 此 视图 中 有 一 条 记录 ， 如 下 所 
示 








postgres=# SELECT slot_name,plugin,slot type,database,active,a 
FROM pg_replication slots ;，; 
slot name | plugin | Slot type | database | active | actiyv 


a Ee Re EO 攻 直 汪 科 二 下 和 丰 生机 福全 
phy_slot1 | | physical | | f 
(1 row) 


` slot_name: 指 复 制 档 名 称 ， 具 有 唯一 性 。 

“ plugin: 如 果 是 物理 复制 楼 显示 为 空 。 

.slot type: 复制 构 的 类 型 ，physical 或 lopical。 

:database: 复制 楼 对 应 的 数据 库 名 称 ， 如 果 
是 物理 复制 档 此 字段 显示 为 空 ， 如 果 是 逻辑 复制 模 
则 显示 数据 库 名 称 。 

.active: 当前 复制 槽 如 果 在 使 用 显示 为 t。 

“ active_pid: 使 用 复制 槽 会 话 的 进程 号 。 

-xmin: 数据 库 需要 保留 的 最 老 事 务 。 


备 库 的 recovery.conf 配 置 文件 增加 
primary_slot_name 参 数 ， 如 下 所 示 : 


recovery_target_ timeline = 'latest' 

standby_mode = on 

primary_conninfo = 'host=192.168.28.74 port=1921 user=repuser 
primary_slot_name = 'phy_slot1' 


重 局 备 库 使 配置 生效 ， 如 下 所 示 : 





[postgres@pghost2 pg_root]$ pg_ctl restart -m fast 
waiting for server to shut down.... done 
server stopped 





”” 主 库 上 再 次 查看 pg_replication_slots， 如 下 所 
人 小 : 





slot_name,plugin,slot type,database,active,active_ pid,xmin 
FROM pg_replication slots ;，; 
slot_name | plugin | slot_type database | active | actiyv 


phy_slot1 | | physical | | t | 
(1 row) 





发 现 active 字 段 变 成 了 t， 并 且 进 程 号 为 23833， 
查看 此 进程 ， 如 下 所 示 





[postgres@pghost1 pg_root]l$ ps -ef | grep 23833 
postgres 23833 19503 0 14:40 ? 00:00:00 postgres: wal 





23833 正 好 是 主 库 上 的 WAL 发 送 进 程 。 


接着 关闭 备 库 ， 并 在 主 库 上 进行 压力 测试 ， 
0 车 后 是 售 会 出 现 所 需 0 





天 闭 备 库 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ pg_ctl stop -m fast 
waiting for server to shut down.... done 
server stopped 


之 后 在 主 库 上 进行 压力 测试 ， 执 行 pBgbench 压 
力 测 试 脚本 ， 如 下 所 示 : 


pgbench -c 8 -T 120 -d postgres -U postgres -n N -M prepared - 


以 上 脚本 执行 过 程 中 ， 在 主 库 上 多 次 执行 


pg&_switch wal () 和 checkpoint 命 令 。 


之 后 启动 备 库 ， 如 下 所 未 : 


[postgres@pghost2 ~]$ pg_ctl start 





发 现 备 库 局 动 成 功 ， 没 有 报 所 需 的 WAL 被 清 
除 的 日 志 信 息 ， 同 时 得 看 主 库 $PGDATA/pg_wal 月 
录 下 的 WAL 文 件数 量 ， 发 现 比 设置 复制 糟 之 前 要 多 


些 。 


12.10 ”逻辑 复制 


PostgreSQL10 一 个 重量 级 新 特性 为 文 持 内 置 ， 
详 见 第 8 章 ，PostgreSQL10 另 一 重量 级 新 特性 为 还 
辑 复 制 (Logical Replication ) ， 这 一 新 特性 的 主要 
提交 者 来 自 于 2ndquadrant 的 开发 者 ， 感 谢 他 们 的 付 
出 4 


本 章 前 面 一 部 分 化 了 大 量 篇 幅 介绍 流 复 制 ， 沉 
复制 是 基于 实例 级 别 的 复制 ， 相 当 于 主 库 的 一 个 热 
备 ， 也 束 是 说 备 库 的 数据 库 对 象 和 主 库 一 模 一 样 ， 
而 馆 辑 复制 是 基于 表 级 别 的 选择 性 复制 ， 例 如 可 以 
复制 主 库 的 一 部 分 表 到 备 库 ， 这 是 一 种 粒度 更 细 的 
复制 ， 逆 辑 复 制 主要 使 用 场景 为 : 


` 根据 业务 需求 ， 将 一 个 数据 库 中 的 一 部 分 表 
同步 到 另 一 个 数据 库 。 























` 满足 报表 库 取 数 需求 ， 从 乡 个 数据 库 采 集 报 
表 数 据 。 


实现 PostereSQL 跨 大 版 本 数据 同步 。 


: 实现 PostgreSQL 大 版 本 升级 。 


流 复制 是 基于 WAL 日 志 的 物理 复制 ， 其 原理 

是 主 库 不 间断 地 发 送 WAL 日 志 流 到 备 库 ， 备 库 接收 
主 库 发 送 的 WAL 日 志 流 后 应 用 WAL; 而 逻辑 复制 
是 基于 逻辑 解析 (logical decoding) ， 其 核心 原理 
是 主 库 将 WAL 日 志 流 解析 成 一 定格 式 ， 订 阅 节 点 收 
到 解析 的 WAL 数 据 流 后 进行 应 用 ， 从 而 实现 数据 同 
步 ， 逻 辑 复制 并 不 是 使 用 WAL 原 始 日 志文 件 进 行 复 
制 ， 而 是 将 WAL 日 志 解 析 成 了 一 定格 式 。 











12.10.1 逻辑 解析 


逻辑 解析 (logical decoding) 是 逻辑 复制 的 核 
心 ， 理 解 逻 辑 解析 有 助 于 理解 逻辑 复制 原理 ， 逮 辑 
解析 读 取 数 据 库 的 WAL 并 将 数据 变化 解析 成 目标 格 
式 ， 这 一 小 节 将 对 逻辑 解析 进行 演示 。 


逻辑 解析 的 前 提 是 设置 wal_level 参 数 为 logical 
并 且 设 置 max_replication_slots 参 数 至 少 为 1， 如 下 
所 示 : 


wal_ level = logical 
max_replication_slots = 8 


wal_level 参 数控 制 WAL 日志 信 息 的 级 别 ， 有 
minimal、replica、logical 三 种 模式 ，12.1.1 小 节 中 详 





细 介 绍 了 这 三 种 醒 式 ， 此 参数 调整 后 需 重 局 数据 库 
2 


max_replication_slots 参 数 指 允 许 的 最 大 复制 横 
数 ， 此 参数 调整 后 需 重 局 数据 库 生 效 。 


pghost1 数 据 库 上 创建 逻辑 复制 槽 ， 如 下 所 示 : 








postgres=# SELECT pg_create logical replication_slot('logical_ 
slot_name | lsn 
logical slot1 | 4/85004210 
(1 row) 
查询 pg_replication_slots 视 图 ， 如 下 所 示 : 
postgres=# SELECT slot_name,plugin,slot_ type,database,active,r 
FROM pg_replication_ slots; 





slot_name | plugin | slot_type | database | act 
a ee et a et nd ed en ee ee 十 ---- 

logical slot1 | test_decoding | logical | postgres | f 

phy_slot1 | | physical | | t 
(2 rows) 


可 见 此 视图 中 多 了 一 条 逻辑 复制 权 logical_slot1 
的 记录 ，pgh_slot1 这 条 数据 是 12.9.3 小 节 中 介绍 物 
理 复 制 槽 时 生成 的 ， 物理 复制 档 的 主要 作用 是 避免 
主 库 可 能 才 盖 并 循环 使 用 还 没有 发 给 备 库 的 WAL 日 


= 上 
JU o 





之 后 使 用 逻辑 复制 槽 logical_slot1 查 看 所 解析 的 
数据 变化 ， 如 下 所 示 : 


postgres=# SELECT * FROM pg_logical slot_ get_ changes('logical_ 
lsn | xid | data 

这 A 

(9 rows) 





pg_logical_slot_get_changes 也 数 用 来 查看 指定 
逻辑 复制 槽 所 解析 的 数据 变化 ， 每 执行 一 次 ， 所 解 
的 数据 变化 将 被 消费 挥 ， 也 就 是 说 查询 结果 不 能 
现 。 


接 下 来 创建 一 张 训 试 表 ， 训 试 逻辑 复制 村 是 合 
可 以 捕获 DDL 数 据 ， 如 下 上 所 示 


postgres=# CREATE TABLE t_logical(id int4); 

CREATE TABLE 

postgres=# SELECT * FROM pg_logical slot_ get_ changes('logical_ 
lsn | xid | data 





4/85094B38 | 42976847 | BEGIN 42976847 
4/850A9DE8 | 42976847 | COMMIT 42976847 
(2 rows) 


以 上 只 返回 事务 信息 ， 没 有 显示 建 表 DDL， 说 
明 逻 辑 复 制 柳 不 会 捕获 DDL， 其 他 类 型 DDL 读 者 可 
目 行 测试 验证 。 


再 次 查看 logical_slot1 捕 获 的 数据 变化 ， 发 现 为 
宝 ， 如 下 所 示 


postgres=# SELECT * FROM pg_logical slot_ get_ changes('logical_ 





lsn | xid | data 
ER os et 
(© rows) 


由 于 此 函数 捕获 的 数据 将 被 消费 挥 ， 因 此 ， 此 
了 疯 数 合 询 结果 仪 能 显现 一 次 。 


在 表 t_logical 中 插入 一 条 数据 ， 再 次 查看 
logical_slot1 捕 获 的 数据 变化 ， 如 下 所 示 : 








postgres=# INSERT INTO t_logical VALUES (1); 





INSERT © 1 
postgres=# SELECT * FROM pg_logical slot_ get_ changes('logical_ 
lsn | xid | data 


4/850AB898 | 42976848 | BEGIN 42976848 
4/850AB898 | 42976848 | table public.t_ logical: INSERT: id 
4/850AB908 | 42976848 | COMMIT 42976848 

(3 rows) 


从 以 上 看 出 ， 这 条 INSERT 语 句 被 解析 出 来 
Te 


动 注意 pg_logical _slot_pget_changes 有 函数 用 来 
查看 指定 逻辑 复制 槽 所 解析 的 数据 变化 ， 每 执行 一 
次 ， 所 解析 的 数据 变化 将 被 消费 掉 ， 如 果 想 解析 的 
数据 能 重复 查询 可 执行 pg_logical slot peek_changes 
马 数 获取 逻辑 复制 槽 所 解析 的 数据 ， 但 是 此 函数 只 
能 显示 pg_logical_slot_get_changes 号 数 没 有 消费 的 数 


据 ， 如 果 数 据 被 pg_logical_slot_get_changes 函 数 消 费 
挤 了 ，pg_logical_slot_peek_changes 员 数 返回 为 空 。 


以 上 介绍 了 使 用 系统 函数 捕获 逻辑 复制 槽 解析 
的 数据 变化 ， 也 可 以 使 用 pg_recvlogical 命 令 行 工 具 
捕获 逻辑 复制 槽 解析 的 数据 变化 ， 先 在 主 库 上 插入 
一 条 记录 ， 如 下 所 示 





postgres=# INSERT INTO t_logical VALUES (3); 
INSERT © 1 


主 库 上 使 用 pg_recvlogical 命 令 获 取 远 辑 复 制 权 
logical_slot1 捕 获 的 数据 变化 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ pg_recvlogical -d postgres --slot logica 
BEGIN 42976850 

table public.t logical: INSERT: id[integer]:3 

COMMIT 42976850 

光标 


-d 指 定数 据 库 名 称 ，--slot 指 定 逻 辑 复制 模 名 
称 ，--start 表 示 通 过 --slot 选 项 指定 的 逻辑 复制 槽 来 
解析 数据 变化 ，-f 将 解析 的 数据 变化 写 入 指定 文 
件 ，“-” 表 示 输 出 到 终端 ， 从 以 上 输出 信息 可 以 看 到 
INSERT 语 句 被 解析 出 来 。 


如 果 多 辑 复制 仿 不 需要 使 用 了 ， 需 要 及 时 删 











除 ， 如 下 所 示 : 


postgres=# SELECT pg_drop_replication_ slot('logical slot1"'); 
pg_drop_replication_ slot 


12.10.2 ”逻辑 复制 架构 


逻辑 复制 架构 图 如 12-7 所 示 。 










Table4 





0 逻辑 解析 二 


逻辑 主 库 / 发 布 节 点 逻辑 备 库 /订阅 节点 


图 12-7 逻辑 复制 架构 图 


图 中 的 逻辑 主 库 和 逻辑 备 库 为 不 同 的 
PostgreSQL 实 例 ， 可 以 在 同一 主机 上 ， 也 可 以 在 不 
同 主机 上 ， 并 且 人 逻辑 主 库 的 表 tablel 和 table2 加 入 了 
Publication， 备 库 上 的 Subscription 能 够 实时 则 步 逻 












辑 主 库 上 的 table1 和 table2; 


逻辑 复制 是 基于 逻辑 解析 ， 其 核心 原理 是 逻辑 
主 库 将 Publication 中 表 的 WAL 日 志 解 析 成 一 定格 式 
并 发 送 给 逻辑 备 库 ， 逻 辑 备 库 Subscription 接 收 到 解 
仿 后 的 WAL 日 志 后 进行 重 做 ， 从 而 实现 表 数 据 同 


Vo 











逻辑 复制 染 构 图 中 最 和 章 要 的 两 个 角色 为 


Publication 和 Subscription。 


Publication (发 布 ) 可 以 定义 在 任何 可 读 写 的 
PostgreSQL 实 例 上 ， 对 于 已 创建 Publication 的 数据 
库 称 为 发 布 节 点 ， 一 个 数据 库 中 人 允许 创建 多 个 发 
布 ， 目 前 允许 加 入 发 布 的 对 象 只 有 表 ， 人 允许 将 多 个 
表 注 册 到 一 个 发 布 中 。 加 入 发 布 的 表 通 常 需要 有 复 
制 标 识 (replica identity) ， 从 而 使 逻辑 主 库 表 上 的 
DELETE/UPDAE 操 作 可 以 标记 到 相应 数据 行 并 复 
制 到 逻辑 备 库 上 的 相应 表 ， 默 认 情 况 下 使 用 主键 作 
为 复制 标识 ， 如 果 没 有 主键 ， 也 可 是 唯一 索引 ， 如 
果 没 有 主键 或 唯一 索引 ， 可 设置 复制 标识 为 full， 
意思 是 整 行 数据 作为 键 值 ， 这 种 情况 下 复制 效率 会 
降低 。 如 果 加 入 发 布 的 表 没 有 指定 复制 标识 ， 表 上 
的 UPDATE/DELETE 将 会 报错 。 


Subscription 〈 订 阅 ) 实时 同步 指定 发 布 者 的 表 








数据 ， 位 于 逻辑 复制 的 下 游 节 点 ， 对 于 已 创建 
Subscription 的 数据 库 称 为 订阅 市 态 ， 订 阅 节 点 的 数 
据 库 上 同时 也 能 创建 发 布 。 发 布 节点 上 发 布 的 表 的 
DDL 不 会 被 复制 ， 因此 ， 如 果 发 布 市 点 上 发 布 的 表 
结构 更 改 了 ， 订 阅 节 点 上 需 手 工 对 订阅 的 表 进 行 
DDL 操 作 ， 订 疯 节 点 通过 逻辑 复制 槽 获取 发 布 世 点 
发 送 的 WAL 数 据 变化 。 














12.10.3 ”逻辑 复制 部 署 





本 解 了 逻辑 复制 的 架构 主要 由 友 布 和 订阅 组 
成 ， 本 节 将 活 示 逻辑 复制 的 部 车 ， 训 斌 环境 见 表 
12-6。 


表 12-6 ”逻辑 复制 实验 环境 


PostsgreSQL10 





PostgreSQL10 


发 布 节点 的 postgresql.conf 配 置 文件 设置 以 下 参 
数 : 


wal_ level = logical 


max_replication_slots = 8 
max_wal_senders = 10 


` wal_level: 设置 成 logical 才 支持 逻辑 复制 。 


. max_freplication_slots: 设置 值 需 大 于 订阅 市 
点 的 数量 。 


. max_wal_senders: 由 于 每 个 订阅 节点 和 流 复 
制备 库 在 主 库 上 都 会 占用 主 库 上 一 个 WAL 发 送 进 
程 ， 因 此 此 参数 设置 值 需 大 于 max_replication_slots 
参数 值 加 上 物理 备 库 数量 。 


订阅 节点 postgresql.conf 配 置 文件 设置 以 下 参 
数 : 


max_replication_slots = 8 
max_1ogical_replLication_workers = 8 # taken from max 


. max_feplication_slots: 设置 数据 库 复 制 槽 数 
量 ， 应 大 于 订阅 节点 的 数量 。 


i wotkets: 设置 认 辑 复 
制 进程 数 ， 应 大 于 订阅 节 节点 的 数量 ， 并 且 给 表 同 步 
预 留 一 些 进程 数量 ， 此 参数 默认 值 为 4。 


同时 max_logical_replication_workers 会 消耗 后 
台 进 程 数 ， 并 且 从 max_worker_processes 人 参数 设置 
的 后 台 进 程 数 中 消费 ， 因 此 max_worker_processes 


参数 需要 设置 较 大 。 


发 布 节 点 上 创建 逻辑 复制 用 户 ， 人 逻辑 复制 用 户 
需要 具备 REPLICATION 权 限 ， 如 下 所 示 : 


了 人 


CREATE USER logical user 
REPLICATION 
LOGIN 
CONNECTION LIMIT 8 
ENCRYPTED PASSWORD 'logical user'; 


逻辑 复制 用 户 需 要 REPLICATION 权 限 即 可 ， 
可 以 不 需要 SUPERUSER 权 限 ， 之 后 需要 在 发 布 节 
点 上 将 需要 同步 的 表 赋 权 给 logical_user 用 户 ， 使 
logical_user 其 有 对 这 些 表 的 读 权 限 ， 这 里 暂 不 赋 
权 。 








发 布 证 点 上 创建 测试 表 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql mydb pguser 
psql (10.0) 
Type "help" for help. 


mydb=> CREATE TABLE t_1ri(id int4,name text); 
CREATE TABLE 


mydb=> INSERT INTO t_1ri VALUES (1,'a'); 
INSERT © 1 


注意 以 上 测试 表 t_lrl1 上 没有 定义 主键 ， 之 后 在 
发 布 节点 上 创建 肥 布 ， 如 下 所 示 : 


mydb=> CREATE PUBLICATION pub1 FOR TABLE t_1ri; 
CREATE PUBLICATION 


创建 发 布 的 语法 如 下 : 


CREATE PUBLICATION name 
[ FOR TABLE [ ONLY ] table name [ * ] [, ...] 
| FOR ALL TABLES ] 
[ WITH ( publication parameter [= valuel] [, ... ] ) j 


name: 指 发 布 的 名 称 。 


FOR TABLE: 指 加 入 到 发 布 的 表 列 表 ， 目 
前 仅 支 持 普通 表 的 发 布 ， 临 时 表 、 外 部 表 、 视 图 、 
物化 视图 、 分 区 表 暂 不 支持 发 布 ， 如 果 想 将 分 区 表 
添加 到 发 布 中 ， 需 逐个 添加 分 区 表 分 区 到 发 布 。 


.FOR ALL TABLES: 将 当前 库 中 所 有 表 添 加 
到 发 布 中 ， 包 括 以 后 在 这 个 库 中 新 建 的 表 。 这 种 模 
式 相当 于 在 全 库 级 别 逻 辑 复制 所 有 表 。 当 然 一 个 
PostgtreSQL 实例 上 可 以 运行 多 个 数据 库 ， 这 仍然 是 
仅 复 制 了 PostgreSQL 实 例 上 的 一 部 分 数据 。 


如 果 想 三 询 刚 创建 的 发 布 信息 ， 在 发 布 节 点 上 
伍 询 pg_publication 视 图 即 可 ， 如 下 所 示 





mydb=> SELECT * FROM pg_publication; 


pubname | pubowner | puballtables | pubinsert | pubupdate 
i 和 
pub1 | 16391 | f | t | t 


pubname: 指 发 布 的 名 称 。 


` pubowner: 指 发 布 的 属 主 ， 和 pg_user 视 图 的 
usesysid 字 段 关 联 。 


* puballtables: 有 是否 发 布 数 据 库 中 的 所 有 表 ，t 
表示 发 布 数据 库 中 所 有 已 存在 的 表 和 以 后 新 建 的 
来 


“ pubinsert: t 表 示 仅 发 布 表 上 的 INSERT 操 
二 


: pubupdate: t 表 示 仅 发 布 表 上 的 UPDATE 操 
作 s 


. pubdelete: t 表 示 仅 发 布 表 上 的 DELETE 操 
人 


订阅 节点 上 创建 表 t_lr1， 注 意 仅 创建 表 结构 ， 
不 插入 数据 ， 如 下 所 示 ， 


[des@pghost3 ~]$ psql des pguser 
psql (10.0) 
Type "help" for help. 


des=> CREATE TABLE t_ Jr1(iId int4,name text); 
CREATE TABLE 


之 后 计划 在 订阅 市 点 上 创建 订阅 ， 语 法 如 下 : 


CREATE SUBSCRIPTION subscription name 
CONNECTION 'conninfo' 
PUBLICATION publication name [, . 
[ WITH ( subscription_ parameter 让 value] [i | 可 


subsctiption_name: 指 订 阅 的 名 称 。 


- CONNECTION: 人 订阅 的 数据 库 连 接 串 ， 通 
常 包括 host、 port、 dbname、user、password 等 连接 
属性 从 安全 角度 考 谍 ， 窗 码 文件 建议 写 入 
~/.pgpass 隐 藏 文件 。 


. PUBLICATION: 指定 需要 订阅 的 发 布 名 


* WITH (subscription_parameter[=value] 
[，..]) : 支持 的 参数 配置 有 copy_data (boolean) 、 
create_slot (boolean) 、enabled (boolean) 、 


slot_name (string) 等 ， 一般 上 默认 配置 即 可 。 


稍 后 创建 订阅 ， 先 在 订阅 节点 上 创建 ~/.pgpass 
文件 ， 并 写 入 以 下 代码 : 


192.168.28.74:1921:mydb:logical user:logical user 





对 ~/.pgpass 文 件 进 行 权限 设置 ， 如 下 所 示 : 





[des@pghost3 ~]$ chmod 0600 .pgpass 








同时 发 布 节 点 的 pg_hba.conf 需 要 设置 相应 策 
略 ， 人 允许 订阅 节点 连接 。 


之 后 在 订阅 市 把 上 创建 肥 布 ， 只 有 超级 用 户 才 
有 权限 创建 肥 布 ， 如 下 所 示 : 





[des@pghost3 ~]$ psql des postgres 
psql (10.0) 
Type "help" for help. 


des=# CREATE SUBSCRIPTION sub1 CONNECTION 'host=192.168.28.74 
dbname=mydb user=logical user' PUBLICATION pub1， 

NOTICE: created replication Slot "subi" on publisher 

CREATE SUBSCRIPTION 





从 以 上 信息 看 出 ， 订 阅 创建 成 功 ， 并 且 在 发 布 
节点 上 创建 了 一 个 名 为 sub1 的 复制 槽 ， 在 发 布 节点 
上 但 看 复制 档 ， 如 下 所 示 : 








mydb=> SELECT slot_name,plugin,slot type,database,active,reste 
FROM pg_replication slots where slot name="'sub1'; 
slot _ name | plugin | slot type | database | active | res 


sub1 | pgoutput | logical | mydb | t | 4/S 





注意 plugin 模 块 为 pgoutput， 这 是 馆 辑 复制 的 默 
认 plugin。 

订阅 节点 上 查看 pg_subscription 视 图 以 查看 订 
疯 信 息 4D 9 如 下 所 示 : 











des=# SELECT * FROM pg_subscription; 
=[ eRECORD: :SD Tie 


subdbid | 16387 

subname | sub1 

subowner | 10 

subenabled | t 

subconninfo | host=192.168.28.74 port=1921 dbname=mydb use 
subslotname | sub1 

subsynccommit | off 

subpublications | {pubi} 





subdbid: 数据 库 的 OID， 和 peg_database.oid 关 
联 。 


. subname: 订阅 的 名 称 。 
. subowner: 订阅 的 属 主 。 
. subenabled: 是 否 启 用 订阅 。 


subconninfo: 订阅 的 连接 串 信 息 ， 显 示 发 布 


节点 连接 串 信息 。 
. Subslotname: 复制 楷 名 称 。 
. subpublications: 订阅 节点 订阅 的 发 布 列表 。 


之 后 在 订阅 节点 上 验证 表 t_Jr1 数 据 是 否 同步 过 
来 ， 如 下 所 示 : 





des=> SELECT * FROM t_1ri; 
id | name 

| 

(© rows) 





发 现 订阅 节 扩 tlr1 数 据 为 宇 ， 僵 看 订阅 市 点 数 
据 库 日 志 ， 发现 如 下 错误 : 


2017-10-01 14:39:45.795 CST,,,16650,,59d08db1.410a,1,,2017-10- 
2017-10-01 14:39:45.875 CST,,,16650,,59d08db1.410a,2,,2017-10- 
2017-10-01 14:39:45.875 CST,,,6054,,59cf4455.17a6,286,,2017-09 


根据 以 上 三 条 数据 库 日 志 ， 订 阅 节 点 sub1 上 表 
tlrl 的 逻辑 复制 已 经 开 始 ， 但 是 无 法 初始 化 复制 数 
据 ， 原 因 是 没有 对 pguser 模 式 的 读 权 限 。 


逻辑 复制 用 户 为 logical_user， 在 发 布 节点 上 对 
logical_user 赋 权 ， 如 下 所 示 : 




















mydb=> GRANT USAGE ON SCHEMA pguser TO logical user; 
GRANT 

mydb=> GRANT SELECT ON {t_Jrl TO logical user; 

GRANT 


以 上 将 pguser 模 式 的 使 用 权限 赋 给 logical_user 
用 户 ， 同 时 将 表 t_lr1 的 SELECT 权 限 赋 给 
logical_user 用 户 。 


再 次 得 看 订阅 节点 数据 库 日 六 ， 如 下 所 示 : 





2017-10-01 14:45:18.893 CST,,,16755,,59d08efe.4173,1,,2017-10- 
2017-10-01 14:45:18.951 CST,,,16755,,59d08efe.4173,2,,2017-10- 





以 上 显示 订阅 节点 sub1l 上 表 t_lr1 的 逻辑 复制 下 
季 ， 在 订阅 节点 上 查看 表 数 据 以 进行 验证 ， 如 下 所 
个 \: 





des=> SELECT * from t_1r1i ， 


id | name 
Ne Ca 十 ------ 
1 | a 
(1 row) 


订阅 节点 上 t_lr1 表 数据 已 同步 ， 以 上 仪 验证 了 
原始 数据 已 同步 。 


这 时 候 在 发 布 市 点 主机 上 可 以 看 到 新 增 了 一 个 





WAL 友 布 进程 ， 如 下 所 示 : 


postgres: wal sender process logical user 192.168.28.76(47464) 


订阅 节点 主机 上 可 以 看 到 新 增 了 一 个 WAL 订 
阅 进 程 ， 如 下 所 示 : 


postgres: bgworker: logical replication worker for subscriptic 


以 上 是 逻辑 复制 的 主要 搭建 步 又， 下 一 小 节 对 
逻辑 复制 的 DML 操 作 进 行 数据 验证 。 


12.10.4 逻辑 复制 DML 数 据 验 证 


上 一 节 介 绍 了 逻辑 复制 的 部 署 ， 并 且 验 证 了 发 
布 节 点 的 原始 数据 同步 到 了 订阅 节点 ， 这 里 验证 发 
布 节点 的 INSERT/UPDATE/DELTE 操 作 是 否 会 同步 
到 订阅 节点 。 


发 布 市 护 上 插入 为 一 条 数据 ， 如 下 所 示 : 





mydb=> INSERT INTO t_1lr1i VALUES (2,'b'); 
INSERT © 1 





订阅 市 点 上 验证 ， 数 据 已 复制 ， 如 下 所 示 : 


des=> SELECT * FROM t_1ri WHERE id=2; 


id | name 
Es i 
2 | pb 

(1 row) 





及 布 节 点 上 更 新 数 据 ， 如 下 所 未: 


mydb=> UPDATE t_Jlr1l SET name='bb' WHERE id=2; 
ERROR: cannot Update table "t_1lri" because it does not have r 
HINT: To enable updating the table, set REPLICA IDENTITY usin 





以 上 信息 表示 t_lr1 表 上 没有 设置 复制 标识 
replica identity， 上 所 以 不 允许 更 新 ， 在 12.10.2 市 中 提 
到 了 如 条 需 要 将 发 布 节 点 表 上 的 UPDATE/DELETE 
操作 逻辑 复制 到 订阅 和 节点， 加 入 发 布 的 表 需 要 有 
replica identity， 默 认 情 况 下 使 用 主键 作为 复制 标 
识 ， 如 果 没 有 主键 ， 也 可 以 是 唯一 索引 ， 我 们 给 发 
布 节点 和 订阅 节点 的 tlr1 表 加 上 主键 后 再 次 进行 测 
试 。 


发 布 节点 上 给 表 t_lr1 加 上 主键 ， 如 下 所 示 : 





mydb=> ALTER TABLE t_1lr1i ADD PRIMARY KEY(id); 
ALTER TABLE 


订阅 节点 上 给 表 t_lrl 也 加 上 主键 ， 如 下 所 示 : 


des=> ALTER TABLE t_1r1i ADD PRIMARY KEY(id); 
ALTER TABLE 


订阅 布点 和 发 布 节 点 中 需要 同步 的 表 的 结构 建 
议 一 致 ， 尽 管 订 阅 市 氮 的 表 可 以 定义 额外 的 字段 。 


发 布 市 护 上 更 新 数据 ， 如 下 所 示 : 





mydb=> UPDATE t_Jlr1l SET name='bb' WHERE id=2; 
UPDATE 1 


发 布 节点 上 给 表 t_1lr1 上 创建 主键 后 可 以 执行 
UPDATE 操 作 。 


订阅 节点 上 验证 这 条 数据 ， 如 下 所 示 : 


des=> SELECT * FROM t_1ri WHERE id=2; 


id | name 
a 十 ------ 
2 | bb 
(1 row) 


可 见 ， 发 布 节点 上 的 UPDATE 操 作 已 同步 到 订 
阅 节 点 。 








最 后 ， 验 证 发 布 节点 上 DELETE 操 作 是 否 会 同 
步 到 订阅 节点 ， 发 布 节点 上 删除 ID 等 于 2 的 记录 ， 
如 下 所 示 : 


mydb=> DELETE FROM t_1r1i WHERE id=2; 
DELETE 1 





对 订阅 市 扣 进 行 验证 ， 如 下 所 示 : 


des=> SELECT * FROM t_lr1 WHERE id=2; 
id | name 

ee 站 

(© rows) 


订阅 节点 上 已 查询 不 到 ID 等 于 2 这 条 记录 ， 说 
明 DELETE 操 作 已 同步 。 


虽然 订阅 节点 上 的 表 t_Irl 能 够 实时 同步 发 布 节 
点 上 t_lr1 表 上 的 数据 ， 实 际 上 订阅 节点 上 的 t_lr1 表 
也 支持 写 操作 ， 只 是 对 订阅 节点 迎 辑 复制 的 表 进 行 
写 操 作 时 有 可 能 与 逻辑 同步 产生 冲突 ， 导 致远 辑 复 
制 停止 ， 冲 突 详 细 信 息 可 通过 订阅 节点 的 数据 库 日 
志 查 看 ， 明 确 了 冲突 的 来 源 后 ， 需 干预 处 理 冲突 的 
数据 或 约束 。 








12.10.5 逻辑 复制 还 加 表 、 删 除 表 





以 上 逻辑 复制 示例 中 的 友 布 市 点 仅 设 置 了 一 张 
表 ， 实 际 生 产 维护 过 程 中 有 增加 他 辑 同步 表 的 十 
求 ， 馆 辑 复 制 文 持 癌 发 布 中 深 加 同 步 表 ， 并 且 操 作 
非 闻 方便 。 


发 布 节 点 上 创建 一 张大 表 t_big， 并 插入 1000 万 
数据 ， 如 下 所 示 : 





mydb=> CREATE TABLE t_big(id int4 primary key, 

create time timestamp(0) without time zone default clock times 
name character varying(32));) 

CREATE TABLE 


mydb=> INSERT INTO t_big(id,name) 
SELECT n,n*random()*10000 FROM generate_ series(1,10000000) ni 
INSERT © 10000000 





将 CCbig 的 SELECT 的 权限 赋 给 逻辑 复制 用 户 


logical_user。 





mydb=> GRANT SELECT ON t_big TO logical user; 
GRANT 








之 后 在 发 布 节 点 上 将 表 t_big 加 入 到 发 布 pub1， 
如 下 上 所 示 : 





mydb=> ALTER PUBLICATION pub1 ADD TABLE t_big; 
ALTER PUBLICATION 


如 果 要 查看 发 布 中 的 表 列表 ， 执 行 dRp+ 元 命 
令 即 可 ， 如 下 所 示 ; 





mydb=> \dRp+ pub1 
Publication pub1 
Owner | All tables | Inserts | Updates | Deletes 
a 于 二 二 二 让 各 及 二 避 汪 全 二 贡 区 二 袜 二 全 王 二 全 下 站 二 二 三 总 三 区 二 总 机 半 训 三 全 于 计 且 二 
pguser | f | t | t | t 
Tables: 
"pguser.t_big" 
"pguser.t_1r1" 





以 上 看 出 t_big 已 加 入 到 发 布 pub1 中 。 


也 可 以 通过 查看 pg_publication_tables 视 图 查看 
发 布 中 的 表 列 表 ， 如 下 所 示 : 





mydb=> SELECT * FROM pg_publication tables ;，; 
pubname | schemaname | tablename 


pub1 | pguser | t_1lri 
pub1 | pguser | t_big 
(2 rows) 





订阅 节点 上 也 创建 Lbig 表 ， 注 意 ， 仅 创建 表 续 
构 ， 不 插入 数据 ， 如 下 所 示 : 





des=> CREATE TABLE t_big(id int4 primary key, 

create_ time timestamp(0) without time zone default clock_times 
name character varying(32));) 

CREATE TABLE 








由 于 t_big 表 是 发 布 节 点 上 新 增加 的 表 ， 这 里 订 
阅 下 点 上 t_big 表 的 数据 还 没有 复制 过 来 ， 订 阅 节 点 
需要 执行 以 下 命令 : 


des=# ALTER SUBSCRIPTION Sub1 REFRESH PUBLICATION ; 
ALTER SUBSCRIPTION 


这 条 命令 执行 之 后 ， 订 阅 节 点 的 t_big 表 在 同步 
发 布 节点 的 数据 了 ， 同 时 在 发 布 节点 主机 上 产生 了 
逻辑 复制 COPY 发 送 进程 ， 大 概 33 秒 左右 ， 订 阅 节 
点 Lbig 上 的 一 千 万 数据 已 完成 同步 ， 如 下 所 示 : 








des=# SELECT COUNT(*) FROM pguser.t_big; 
count 


10000000 
(1 row) 


可 见 t_big 表 上 的 数据 已 完成 同步 。 


如 果 由 于 需求 调整 E， 远 辑 复制 中 t_big 表 不 青 需 
要 逻辑 同步 ， 只 需要 在 发 布 节 点 上 将 t_big 表 从 发 布 
pub1 中 去 掉 即 可 ， 执 行 如 下 命令 : 








mydb=> ALTER PUBLICATION pub1 DROP TABLE t_big; 
ALTER PUBLICATION 


这 条 命令 执行 之 后 ， 发 布 节点 、 订 阅 节 点 上 的 
t_big 表 将 没有 任何 同步 关系 ， 两 张 表 为 不 同 库 中 独 
并 的 表 ， 只 是 表 名 一 样 而 已 。 


12.10.6 ”人 逻辑 复制 启动 、 停 止 


逻辑 复制 配置 完成 之 后 ， 上 默认 情况 下 订阅 节 所 
的 表 会 实时 间 步 友 布 节操 中 的 表 ， 风 辑 复制 通过 局 
用 、 仿 止 订阅 方式 实现 逻辑 复制 的 局 动 和 停止 。 


订阅 市 态 上 停止 sub1 订 疯 从 而 中 断 实 时 同步 数 
据 ， 执 行 如 下 命令 : 





des=# ALTER SUBSCRIPTION Sub1 DISABLE ， 
ALTER SUBSCRIPTION 


查询 pg_subscription 视 图 的 subenabled 字 上 段 判断 
是 否 已 集 止 订阅 ， 如 下 所 示 : 





des=# SELECT subname, subenabled, subpublications FROM pg_subscr 
subname | subenabled | subpublications 


sub1 | f | {pub1+ 
(1 row) 


这 时 发 现 及 布 节 点 上 已 经 没有 了 了 WAL 发 布 进 
程 ， 同 时 订阅 节点 上 没有 了 WAL 订 阅 进 程 ， 也 可 以 


验证 Llrl 表 上 的 数据 是 个 还 会 实时 同步 给 订阅 节 
点 


ro 





如 果 想 开局 订阅 ， 执 行 如 下 命令 


des=# ALTER SUBSCRIPTION Sub1 ENABLE ，; 
ALTER SUBSCRIPTION 


伍 询 pg_subscription 视 图 ，subenabled 字 上 段 值 变 
成 了 t， 如 下 所 示 : 


des=# SELECT subname, subenabled, subpublications FROM pg_subscr 
subname | subenabled | subpublications 


sub1 | t | {tpub1} 
(1 row) 


12.10.7 逻辑 复制 配置 注意 事项 和 限制 


前 面 的 内 容 演 示 了 远 辑 复制 的 部 著 和 功能 验 
证 ， 人 逻辑 复制 部 莹 过程 中 最 主要 的 两 个 角色 为 肥 布 
和 订阅 ， 以 下 介绍 两 者 配置 的 注意 事项 。 


发 布 市 上 配置 注意 事项 如 下 : 


` 发 布 节点 的 wal_level 参 数 需 要 设置 成 lopical。 








` 发 布 节点 上 人 逻辑 复制 用 户 至 少 需 要 replication 
角色 权限 。 


` 发 布 节 点 上 需要 发 布 的 表 如 果 需 要 将 
UPDATE/DELETE 操 作 同 步 到 订阅 节点 ， 需 要 给 
发 布 表 配置 复制 标识 。 


. 发 布 时 可 以 选择 发 布 INSERT、UPDATE、 
DELETE DML 操作 中 的 一 项 或 多 项 ， 上 默认 是 发 布 
i 机 


支持 一 次 发 布 一 个 数据 库 中 的 所 有 和 表 。 
:一 个 数据 库 中 可 以 有 多 个 发 布 。 


` 逻辑 复制 目前 仅 支持 首 通 表 ， 订 列 、 视 图 、 
物化 视图 、 分 区 表 、 外 部 表 等 对 桨 目前 不 支持 。 


-发布 节点 配置 文件 pg_hba.conf 需 做 相应 配 
置 ， 允 许 订 阅 节 点 连接 。 

“发布 表 上 的 DDL 操 作 不 会 自动 同步 到 订阅 节 
点 ， 如 果 发 布 节点 上 发 布 的 表 执 行 了 DDL 操 作 ， 需 
手工 给 订阅 节点 的 相应 表 执 行 DDL。 


订阅 市 点 配置 注意 事项 如 下 : 








:一 个 数据 库 中 可 以 有 多 个 订阅 。 
` 必须 具有 超级 用 户 权限 才 可 以 创建 订阅 。 


创建 订阅 时 需 指 定 发 布 节点 连接 信息 和 发 布 
名 称 O 


: 创建 订阅 时 默认 不 会 创建 发 布 节点 的 表 ， 因 
此 创建 订阅 前 需 手 工 创建 表 。 


. 订阅 支持 启动 、 停 止 操作 。 


: 订阅 节点 的 表 结 构建 议和 发 布 节点 一 致 ， 尽 
管 订阅 节点 的 表 允 许 有 额外 的 字段 。 


. 发 布 节点 给 发 布 增加 表 时 ， 订 阅 结 点 需要 刷 
新 订阅 才能 同步 新 增 的 表 。 


对 于 配置 了 复制 标识 的 表 ，UPDATE/DELETE 
操作 可 以 馆 辑 复制 到 订阅 节点 ， 但 目前 的 厂 本 中 逻 
辑 复制 有 以 下 限制 : 

* DDL 操 作 不 支持 复制 ， 发 布 节点 上 发 布 表 进 
行 DDL 操 作 后 ，DDL 操 作 不 会 复制 到 订阅 节点 ， 需 
在 订阅 节点 对 发 布 表 手 工 执行 DDL 操 作 。 


序列 本 身 不 支持 复制 ， 当 前 逻辑 复制 仅 支 持 








普通 表 ， 序 列 、 视 图 、 物 化 视图 、 分 区 表 、 人 外 部 表 
等 对 象 都 不 支持 。 


" TRUNCATE 操作 不 支持 复制 。 
` 大 对 象 (Large Object) 字段 不 支持 复制 。 


以 上 只 是 PostgreSQL10 版 本 逻辑 复制 的 限制 事 
项 ， 或 许 以 后 新 版 本 的 限制 条 件 能 够 减少 。 


12.10.8 逻辑 复制 延迟 测试 


这 一 人 小节 将 测试 逻辑 复制 的 延迟 ， 计 划分 两 个 
场景 测试 逻辑 复制 延迟 ， 场 景 一 为 单 表 INSERT 压 
力 测试 ， 场 景 二 为 单 表 干 万 级 数据 UPDATE 压 力 测 
试 。 


场景 一 : 单 表 INSERT 压 力 测试 。 


发 布 节 点 上 创建 测试 表 t_per1， 并 将 此 表 
SELECT 权 限 赋 给 逻辑 复制 用 户 logical_user， 如 下 
所 示 : 


mydb=> CREATE TABLE t_peri1 (Id int4,name text, 
create time timestamp(0) without time zone DEFAULT '2000-01-01 
CREATE TABLE 


mydb=> GRANT SELECT ON t_per1 TO logical user; 


GRANT 





发 布 节点 上 给 发 布 pub1 添 加 表 t_per1， 如 下 所 





mydb=> ALTER PUBLICATION pub1 ADD TABLE t_perl ， 
ALTER PUBLICATION 





订阅 节点 上 也 创建 此 表 ， 如 下 所 示 : 





des=> CREATE TABLE t_per1 (id int4,name text, 
create time timestamp(0) without time zone DEFAULT '2000-01-01 
CREATE TABLE 





订阅 市 反 上 刷新 订阅 subl1， 如 下 所 示 





des=# ALTER SUBSCRIPTION Sub1 REFRESH PUBLICATION ; 
ALTER SUBSCRIPTION 





发 布 节 点 上 编写 insert_t.sql 脚 本 文件 ， 写 入 以 
下 内 容 : 





\set v_id random(1,1000000) 


INSERT INTO t_peri(id,name) VALUES (:v_id,:v_id||'a'); 





之 后 执行 pgbench 进 行 INSERT 压 力 测 试 ， 如 下 
所 示 : 


pgbench -c 8 -T 120 -d mydb -U pguser -n N -M prepared -f inse 





I 才 程 中 ， 在 发 布 节点 上 的 
行 以 下 SQL 以 监控 延迟 


mydb=# SELECT pid,usename, state, 
pg_wal_lsn_diff(pg_current wal lsn(),replay_lsn) repla 
FROM pg_stat_replication WHERE application_name="'sub1'" 


pid , usename | state | replay_dely 
A 和 

457 | logical user | streaming | 11936 
(1 row) 





replay_dely 显 示 进 和 嵌 复 制 WAL 应 用 延迟 ， 单 位 
为 字 节 ， 反 复 执 行 以 上 SQL，WAL 应 用 延迟 大 概 在 
11MB 左 右 ， 延 迟 很 低 。 


场景 二 : 单 表 UPDATE 压 力 测 试 。 


发 布 节点 上 创建 表 t_per2， 并 插入 1000 万 数 
据 ， 如 下 所 示 : 


mydb=> CREATE TABLE t_per2 (id int4 primary key, 

name text, 

create_ time timestamp(0) without time zone DEFAULT '2000-01-01 
CREATE TABLE 


mydb=> INSERT INTO t_per2(id) SELECT generate series(1,1000000 
INSERT © 10000000 





将 表 赋 权 并 加 入 到 发布 中 ， 如 下 所 示 





mydb=> GRANT SELECT ON t_per2 TO logical user ， 
GRANT 

mydb=> ALTER PUBLICATION pub1 ADD TABLE t_per2; 
ALTER PUBLICATION 





订阅 节点 也 创建 Lper2 表 ， 并 刷新 发 布 ， 如 下 
所 示 





des=> CREATE TABLE t_per2 (id int4 primary key, 

name text, 

create_ time timestamp(0) without time zone DEFAULT '2000-01-01 
CREATE TABLE 


des=# ALTER SUBSCRIPTION Sub1 REFRESH PUBLICATION ; 
ALTER SUBSCRIPTION 





大 概 40 秒 左右 ， 订 阅 节 点 t_per2 表 数据 已 完成 





\set v_id random(1,1000000) 


update t_per2 set create time=clock_ timestamp() where id=:v_id 


之 后 执行 pgbench 进 行 UPDATE 压 力 测 试 ， 如 
下 所 外: 


pgbench -c 8 -T 120 -d mydb -U pguser -n N -M prepared -f upda 





UPDATE 压 测 过 程 中 ， 在 发 布 节点 上 执行 以 下 
SQL 以 监控 延 人 壕 : 


mydb=# SELECT pid,usename, state, 
pg_wal_ lsn_diff(pg_current wal lsn(),replay_lsn) r 
FROM pg_stat_replication WHERE application_name="sub1'" 
| usename | state | replay_dely 
Se 和 
457 | logical user | streaming | 12352 





反复 执行 以 上 SQL，replay_dely 大 概 在 12MB 左 
布 去 姓 退 掖 作 3 


19.11 林芝 小 第 


本 章 主 要 介绍 了 PostgreSQL 异 步 流 复制 、 同 步 
流 复 制 部 署 、 有 异步 流 复制 与 同步 流 复 制 性 能 测试 、 
流 复 制 监 控 、 流 复制 主 备 切 换 、 延 迟 备 库 、 同 步 复 
制 优选 提交 、 级 联 复 制 、 流 复制 维护 生产 案例 、 逻 
辑 复 制 ， 并 结合 笔者 在 数据 库 维 护 过 程 中 的 实际 经 
验 进 行 了 总 结 ， 熟 练 掌 握 这 些 内 容 能 够 使 读者 加 深 
对 PostgreSQL 复 制 技术 的 理解 。 








第 13 章 ”备份 与 恢复 


任何 系统 都 有 朋 尝 的 可 能 ， 数 据 库 备份 工作 的 
重要 性 毋庸 置疑 。 通 过 备份 和 恢复 来 保护 数据 ， 辟 
人 免 数据 丢失 ， 在 发 生 灾难 或 人 为 误 操 作 的 情况 下 ， 
能 够 进行 恢复 是 DBA 的 日 利 最 重要 的 工作 。 不 仅 要 
保证 能 够 成 功 备份 ， 还 要 保证 备份 数据 能 够 恢复 ， 
如 有 果 能 在 更 短 的 时 间 进 行 恢复 更 是 钊 上 添 化 。 利 用 
现 有 资源 ， 基 于 现实 情况 考虑 ， 制 定 严 齐 、 可 菲 的 
备份 策略 ， 应 对 可 能 出 现 的 需要 恢复 的 情况 是 每 个 
DBA 都 应 该 掌握 的 基本 技能 。 本 章 葡 PostgreSQL 的 
物理 备份 、 逻 辑 备份 以 及 恢复 方式 展开 讨论 。 


























13.1 备份 与 恢复 概述 


备份 与 恢复 的 目的 是 为 了 在 发 生 灾难 或 人 为 误 
操作 时 ， 能 够 从 一 份 数据 副本 中 重建 数据 库 。 备 份 
并 不 是 我 们 笼 统 的 所 说 的 执行 菜 些 备份 的 命令 、 运 
行 定 时 的 备份 脚本 任务 ， 有 很 多 情况 都 可 以 归于 备 
份 这 个 话题 。 例 如 我 们 准备 删除 大 量 生 产 环 境 的 过 
期 数据 ， 在 操作 之 前 就 可 以 先 拷贝 一 份 数据 作为 备 
份 ， 在 出 现 意外 时 可 以 有 效 地 回 深 。 操 作 系 统 层面 
的 高 可 用 技术 也 是 数据 库 备份 的 一 各 补充， 例如 利 
用 DRBD、 流 复制 、 逻 辑 复制 的 方式 搭建 的 从 库 ， 
双 机 热 备 等 。 数 据 库 层 面 的 备份 和 恢复 通常 为 了 应 
对 以 下 几 种 情况 : 


介质 损坏 ， 数 据 库 系统 无 法 读 取 和 写 入 数 
据 ; 











: 人 为 的 误 操作 ， 例 如 “不 小 心 的 
TRUNCATE 或 ALTER TABLE DROP COLUMN ; 


: 导致 数据 错误 或 损坏 的 程序 BUG， 例 如 一 个 
没有 WHERE 条 件 的 UPDATE 或 DELETE ; 


. 需求 的 变更 ， 例 如 执行 一 次 数据 变更 之 后 ， 
却 发 现 变更 需求 本 身 不 符合 预期 。 


备份 的 方式 一 般 分 为 物理 备份 和 逻辑 备份 。 通 
过 见 余 数据 文件 提供 数据 保护 ， 在 文件 系统 对 数据 
目录 ， 参 数 文 件 进行 物理 拷贝 ， 复 制 到 其 他 路 径 或 
存储 设备 中 的 方法 称 为 物理 备份 。 逻 辑 备 份 是 利用 
工具 ， 按 照 一 定 逻 辑 将 数据 库 对 象 导出 到 文件 ， 需 
要 时 再 利用 工具 把 逻辑 备份 文件 重新 导入 到 数据 库 
中 ， 除 了 利用 工具 导出 ， 用 CREATE TABLE AS、 
COPY 等 SQL 命令 保存 数据 副本 的 方式 也 被 认为 是 
逻辑 备份 的 一 种 。 有 逻辑 备份 是 数据 库 对 象 级 的 备 
份 ， 在 跨 版 本 、 跨 平台 的 恢复 中 应 用 得 更 多 一 些 。 


在 数据 库 处 于 关闭 状态 时 进行 备份 通常 称 为 冷 
备份 ， 也 称 为 冷 备 、 脱 机 备份 。 次 备份 通 各 不 需要 
恢复 过 程 束 可 以 局 动 ， 但 前 近 是 数据 库 是 正常 天 闭 
的 。 如 果 是 友 生 挥 电 、 主 机 政 障 的 情况 下 关闭 的 ， 
可 能 还 是 需要 利用 归档 日 志 才 能 恢复 。 和 冷 备 对 应 
的 是 热 备 份 ， 热 备份 就 是 数据 库 在 月 动 状态 时 的 备 
份 ， 也 称 为 热 备 、 联 机 备份 。 热 备份 不 需要 关闭 数 
据 库 ， 备 份 期 间 数 据 库 处 于 活跃 状态 ， 可 以 接受 用 
户 的 连接 并 操作 数据 。 正 第 关闭 的 数据 库 做 的 冷 备 
份 一 定 是 一 致 的， 但 热 备 份 会 有 一 致 性 的 问题 ， 因 
为 在 备份 期 间 ， 可 能 备份 完 一 部 分 数据 ， 开 始 备份 
为 外 一 部 分 数据 时 ， 前 一 部 分 备份 完成 的 数据 义 被 
































改 号 ， 那 么 融 需 要 信 助 预 写 日 筷 重 做 ， 将 备份 恢复 
到 一 致 状态 。 对 于 互联 网 应 用 或 其 他 24 小 时 运行 的 
应 用 通 第 使 用 热 备 为 主要 的 备份 方式 ， 毕 葛 为 了 备 
份 就 停机 俘 库 不 是 好 你 法 。 


恢复 通常 在 紧急 情况 下 发 生 ， 并 且 通 常会 和 备 
份 一 起 讨论 ， 不 仅仅 因为 可 恢复 是 备份 的 终极 目 
的 ， 而 且 是 因为 恢复 和 备份 一 样 重 要 ， 当 出 现 故 障 
时 能 够 利用 备份 集 进行 数据 的 恢复 。DBA 应 该 根据 
自 吴 业务 情况 和 特点 ， 对 数据 库 系 统 的 备份 和 恢复 
制定 完善 的 策略 。RTO (Recovery Time 
Objective) 和 RPO (Recovery Point Objective ) 是 规 
划 备 份 和 恢复 策略 时 最 重要 的 两 个 衡量 指标 。RTO 
是 恢复 时 间 目 标 ， 指 从 故障 有 发生 开始 到 业务 系统 恢 
复 服务 所 需 的 时 间 ; RPO 是 恢复 点 目标 ， 指 故 隐 发 
生 后 可 以 容 妨 丢失 多 少数 据 。 越 低 的 RTO 和 RPO 也 
残 意 味 看 更 多 的 硬件 设施 和 更 高 的 维护 成 本 。 可 以 
根据 业务 实际 需要 制定 评估 标准 ， 规 划 合 理 的 备份 
恢复 方案 ， 例 如 ， 是 使 用 基于 时 间 点 的 备份 和 恢复 
方案 还 是 定期 进行 文件 系统 级 别 的 备份 ?能 承受 的 
RPO 和 RTO 越 大 ， 也 就 是 能 接受 丢失 的 数据 越 多 或 
者 可 以 接受 的 恢复 时 间 更 长 ， 备 份 方案 越 简单 ， 反 
之 备份 方案 越 复杂 ， 难 度 越 大 。 


规划 备份 方案 时 ， 应 该 充分 考虑 备份 操作 对 性 
能 的 影响 ， 例 如 备份 时 CPU、 带 宽 的 占用 率 ， 磁 盘 


























的 性 能 等 等 。 通 种 可 以 避 开 业务 高 峰 ， 在 业务 低 合 
时 进行 备份 ， 避 免 业 务 系统 产生 不 可 接受 的 性 能 波 
动 。 在 备份 的 时 间 开 销 和 性 能 开销 之 间 也 应 该 有 所 
权衡 ， 要 么 消耗 较 多 的 系统 资源 ， 达 到 快速 备份 的 
目的 ， 要 么 使 用 较 长 的 备份 时 间 ， 避 人 免 太 多 的 性 能 
开销 。 备 份 集 的 保留 和 删除 策略 也 应 该 详细 地 规 
划 ， 可 以 考虑 周期 性 地 删除 过 期 的 备份 集 和 归档 ， 
减 小 不 必要 的 磁盘 开销 。 


备份 是 恢复 的 前 提 。 不 发 生 故 障 时 ， 世 界 很 太 
平 ， 但 是 发 生 故 障 时 ， 如 果 不 能 顺利 进行 恢复 ， 那 
将 是 一 场 对 梦 ! 甚至 可 能 是 对 企业 的 致命 打击 ! 这 
绝 不 是 危 言 管 听 。 日 常 的 备份 有 效 性 的 检查 就 显得 
尤其 重要 ， 一 个 无 效 的 备份 集 和 没有 备份 是 一 样 
的 ， 例 如 备份 文件 无 法 解压 ， 或 者 存储 备份 的 介质 
损坏 等 等 。 除 了 制定 备份 恢复 策略， 还 应 该 制定 一 
套 定 期 、 定 时 的 恢复 测试 方案 。 应 该 定期 、 定 时 地 
自动 对 备份 集 进行 恢复 测试 ， 当 发 现 备份 文件 损坏 
或 无 法 正常 恢复 的 情况 ， 应 当 及 时 发 出 告警 ， 重 做 
备份 ， 并 且 刨 根 问 底 找到 备份 失效 的 原因 并 修复 。 
总 之 ， 能 够 恢复 的 备份 才 是 有 意义 的 备份 。 恢 复 测 
试 过 程 中 ， 应 该 考量 恢复 需要 花费 的 时 间 ， 日 常 测 
试 时 ， 也 应 当 记 录 和 统计 恢复 花费 的 时 间 ， 如 果 恢 
复 时 间 太 长 ， 还 应 该 优化 恢复 方案 ， 消 除 恢复 瓶 
颈 ， 尽 可 能 充分 利用 网 络 、 存 储 和 CPU 加 快 恢 复 速 
上 度 ， 在 出 现 故 障 时 才能 胸有成竹 ， 人 从容不迫。 






































PostgreSQL 提 供 了 不 同 的 方法 来 备份 和 恢复 数 
据 库 ， 可 以 是 茶 一 时 刻 数据 库 快 照 的 完整 备份 或 增 
量 备份 ， 可 以 使 用 SQL 转 储 或 文件 系统 级 别 的 备 
份 ， 在 增 量 备份 的 基础 上 还 可 以 实现 基于 时 间 点 恢 
复 。 有 三 种 不 同 的 基本 方法 来 备份 和 恢复 
PostgreSQL 数 气 : 








` 使 用 pg dump 和 pg _dumpall 进 行 转 储 ， 从 SQL 
转 储 文 件 中 恢复 


文件 系统 级 别 的 备份 
. 增 量 备份 和 基于 时 间 点 恢复 (PITR) 


我 们 将 在 以 下 小 节 中 分 别 进行 探讨 。 


13.2” 增 量 备份 


PostgreSQL 在 做 写 入 操作 时 ， 对 数据 文件 做 的 
任何 修改 信息 ， 首 先 会 号 入 WAL 日志 《〈 预 写 日 
志 ) ， 然 后 才 会 对 数据 文件 做 物理 修改 。 当 数据 库 
服务 器 掉 电 或 意外 宕 机 ，PostgreSQL 在 启动 时 会 首 
先 读 取 WAL 日 志 ， 对 数据 文件 进行 恢复 。 因 此 ， 从 
理论 上 讲 ， 如 果 我 们 有 一 个 数据 库 的 基础 备份 (也 
称 为 全 备 ) ， 再 配合 WAL 日 志 ， 是 可 以 将 数据 库 恢 
复 到 任意 时 间 点 的 。 但 是 WAL 日 志 的 文件 个 数 并 不 
是 无 限 增 长 的 ， 当 增长 到 第 N 个 (理论 上 
N=2xcheckpoint_segment+1) 文件 时 ，PostgreSQL 
会 重复 利用 已 生成 的 WAL 日 志文 件 。 例 如 ， 当 前 数 
据 库 中 已 产生 256 个 WAL 日志， 就 会 开始 重复 利用 
第 1 个 、 第 2 个 或 第 3 个 产生 的 WAL 日 志文 件 ，WAL 
日 志 将 会 被 改 号 。 这 时 就 会 产生 问题 ， 此 时 如 果 我 
们 想 恢 复 到 第 1 个 WAL 日 志 的 状态 时 ， 因 为 WAL 日 
志 已 被 改 号 ， 注 定 是 无 法 恢复 了 。 因 此 我 们 要 根据 
自身 的 业务 情况 ， 定 时 对 WAL 日 志 进 行 归档 。 


但 是 新 的 问题 又 产生 了 : 当 我 们 根据 很 早 以 前 
的 基础 备份 和 WAL 的 归档 日 志 进 行 恢复 时 ， 因 为 需 
要 做 的 回 深 操 作 非 第 多 ， 导 人 臻 恢复 时 间 很 长 ， 这 也 
会 严重 影响 到 生产 性 能 。 为 了 解决 这 个 问题 ， 我 们 
可 以 通过 定期 对 数 扼 库 做 基础 备份 ， 再 配合 WAL 的 


























归档 日 志 ， 就 可 以 在 较 短 的 时 间 将 数据 库 恢复 。 具 
体 到 定期 备份 的 周期 ， 需 要 根据 自身 的 业务 需求 制 
定 合理 的 备份 策略 ， 在 数据 完整 性 和 恢复 所 需 时 间 
之 间 达 到 最 佳 的 平衡 点 。 例 如 第 一 周 的 星期 一 ， 
DBA 对 数据 库 做 了 一 次 全 备 ， 生 产 在 持续 进行 ， 本 
周 没 有 发 生 故 障 ; 第 二 周 的 星期 一 ，DBA 对 数据 库 
又 做 了 一 次 全 备 ， 直 到 星期 五 数据 库 都 工作 正常 ， 
但 在 星期 六 和 星期 天 ， 数据 及 生 了 并 币 ，DBA 需 要 
将 数据 恢复 到 星期 五 的 状态 ， 这 时 就 可 以 通过 第 
周 星 期 一 或 第 二 周 星 期 一 的 全 备 文件 配合 归档 日 志 
进行 恢复 。 显 然 ， 如 果 通 过 第 一 周 星 期 一 的 全 备 文 
件 进 行 恢 复 ， 恢 复 时 间 会 较 长 ， 通 过 第 二 周 星 期 一 
的 全 备 文 件 进行 恢复 则 会 快 很 多 。 











13.2.1 ”开局 WAL 归 档 


1. 创 建 归档 目录 


还 记得 我 们 在 安 闫 与 配置 时 讲解 过 的 ， 创 建 数 
据 目录 的 步骤 吗 ? 我 们 在 创建 数据 目录 的 同时 ， 除 
了 创建 data 目 录 ， 还 创建 了 backups，scripts， 
archive_wals 这 几 个 目录 ， 如 下 所 示 : 





[root@pghost1 ~]$ mkdir -p /pgdata/10/{data,backups,scripts,ar 
[root@pghost1 ~]$ chown -R postgres.postgres /pgdata/10 


其 中 ，data 目 录 是 我 们 数据 库 的 数据 目录 ， 
backups 目 录 则 可 以 用 来 存放 基础 备份 ，scripts 目 录 
可 以 用 来 存放 一 些 任务 脚本 ，archive_wals 目 录 目 然 
用 来 存放 归档 了 。 归 档 目 录 也 可 以 是 挂 载 鸭 NFS 目 
录 或 者 磁带 ， 注 意 这 个 目录 的 属 主 为 postgres 用 户 
即 可 。 


2. 修 改 wal level 人 参数 


wal_level 参 数 可 选 的 值 有 minimal、replica 和 
logical， 从 minimal 到 replica 再 到 logical 级 别 ，WAL 
的 级 别 依次 增高 ， 在 WAL 中 包含 的 信息 也 越 多 。 由 
于 minimal 这 一 级 别 的 WAL 不 包含 从 基本 的 备份 和 
WAL 日 志 中 重建 数据 的 足够 信息 ， 在 minimal 模 式 
下 无 法 开局 archive_mode， 所 以 开局 WAL 归 档 
wal_level 全 少 设 置 为 replica， 如 下 所 示 : 











mydb=# ALTER SYSTEM SET wal_ level = 'replica'; 
ALTER SYSTEM 


3. 修 改 archive_mode 参 数 


archive_mode 参 数 可 选 的 值 有 on、off 和 
always， 默 认 值 为 of， 开 启 归 档 需 要 修改 为 on， 如 
下 所 示 : 


mydb=# ALTER SYSTEM SET archive mode = 'on'; 
ALTER SYSTEM 


修改 此 参数 需要 重新 启动 数据 库 使 之 生效 。 
4. 修 改 archive_ command 参 数 


archive_command 参 数 的 默认 值 是 个 空 字符 
串 ， 它 的 值 可 以 是 一 条 shell 命 令 或 者 一 个 复杂 的 
shell 肢 本。 在 archive_command 的 shell 命 令 或 脚本 中 
可 以 用 “%p” 表 示 将 要 归档 的 WAEL 文 件 的 包含 完整 
路 径 信息 的 文件 名 ， 用 ”“% 刀 代表 不 包含 路 径 信 息 的 
WAL 文 件 的 文件 名 。 


一 个 最 简单 的 archive_command 的 例子 是 : 
archive_command='cp%p/pgdata/10/archive_wals/%f'。 








修改 wal_level 和 archive_mode 参 数 都 需要 重新 
启动 数据 库 才 可 以 生效 ， 修 改 archive_command 不 
需要 重启 ， 只 需要 reload 即 可 。 但 有 一 点 需要 注 
意 ， 当 开启 了 归档 ， 应 该 注意 archive_command 设 
定 的 归档 命令 是 否 成 功 执 行 ， 如 果 归 档 命 令 未 成 功 
执行 ， 它 会 周期 性 地 重 试 ， 在 此 期 间 已 有 的 WAL 文 
件 将 不 会 被 复 用 ， 新 产生 的 WAL 文 件 会 不 断 占用 
pg_wal 的 磁盘 空间 ， 直 到 pg_wal 所 在 的 文件 系统 被 
占 满 后 数据 库 关 闭 。 由 于 wal level 和 archive_mode 
参数 都 需要 重新 启动 数据 库 才 可 以 生效 ， 所 以 在 安 








装 结束 ， 局 动 数据 库 之 前 ， 可 以 先 将 这 些 参数 开 

局 ， 将 archive_command 的 值 设 置 为 永远 为 真 的 

值 ， 例 如 /bin/true， 当 需要 真正 开局 归档 时 ， 只 需 
要 修改 archive_command 的 值 ，reload 即 可 ， 而 不 需 
要 由 于 参数 调整 而 重启 数据 库 。 


如 果 考 虑 到 归档 占用 较 多 的 磁盘 空间 ， 配 置 归 
档 时 可 以 将 WAL 压 缩 之 后 再 归档 ， 可 以 用 gzip、 
bzip2 或 1z4 等 压缩 工具 进行 压缩 。 当 前 的 例子 中 ， 

把 archive_command 设 置 为 在 pg_wal 目 录 使 用 lz4 压 
缩 WAL， 并 将 压缩 后 的 文件 归档 
到 /pgdata/10/archive_wals/ 目 录 : 








mydb=# ALTER SYSTEM SET archive_command = '/usr/bin/1lz4 -q -Z 
ALTER SYSTEM 
mydb=# SELECT pg_reload_conf( ) ; 

pg_reload_conf 


(1 row) 
mydb=# Show archive_command ; 
archive_command 


/UsSr/bin/1z4 -9q -z %p /pgdata/10/archive wals/%f.1z4 
(1 row) 


13.2.2 ”创建 基础 备份 


在 较 低 的 PostgreSQL 版 本 中 ， 使 用 
pg_start_backup 和 pg_stop_backup 这 些 低级 API 创 建 


基础 备份 ， 从 PostgreSQL 9.1 版 开始 有 了 
pg_basebackup 实 用 程序 ， 使 得 创建 基础 备份 更 便 
捷 ，pg&_basebackup 用 普通 文件 或 创建 tar 包 的 方式 进 
行 基础 备份 ， 它 在 内 部 也 是 使 用 pg_start_backup 和 
pg_stop_backup 低 级 命令 。 如 果 和 希望 用 更 灵活 的 方 
式 创 建 基 础 备份 ， 例 如 和 希望 通过 rsync、scp 等 命令 
创建 基础 备份 ， 依 然 可 以 使 用 低级 API 的 方式 。 同 
时 ， 使 用 低级 API 创 建 基础 备份 也 是 理解 PIRT 的 关 
键 和 基础 ， 我 们 分 别 对 这 两 种 方式 展开 讨论 。 


1. 使 用 低级 API 创 建 基 础 备份 

使 用 低级 API 创 建 基 础 备份 主要 有 三 个 步 又 : 
执行 pg_start_backup 命 令 开始 执行 备份 ， 使 用 命令 
创建 数据 目录 的 副本 和 执行 pg_stop_backup 命 令 结 
束 备份 。 


步骤 1 执行 pg_start_backup 命 令 。 


pg_start_backup 的 作用 是 创建 一 个 基础 备份 的 
准备 ， 这 些 准备 工作 包括 : 


1) 判断 WAE 归 档 是 否 已 经 开局 。 


如 条 WAL 归 档 没 有 开局 ， 备 份 依然 会 进行 ， 
但 在 备份 结束 后 会 显示 提醒 信息 : 

















NOTICE: WAL archiving is not enabled; you must ensure that all 


意思 是 说 WAL 归 档 示 启用， 必须 确保 通过 其 
他 方式 复制 所 有 必需 的 WAL 以 完成 备份 。 复 制 所 有 
必需 的 WAL 听 上 去 似乎 可 行 ， 但 是 对 于 一 个 较 大 
的 、 写 入 频繁 的 生产 环境 数据 库 来 说 实际 是 不 现实 
的 ， 等 pg_start_backup 命 令 结 束 了 再 去 复制 必需 的 
WAL， 可 能 那些 WAL 文 件 已 经 被 重用 了 ， 上 所 以 务 
必 按 照 13.2.1 节 的 内 容 提前 开局 归档 。 


2) 强制 进入 全 页 写 模 式 。 


判断 当前 配置 是 否 为 全 页 写 模 式 ， 当 
full_page_writes 的 值 为 off 时 表示 关闭 了 全 页 写 模 
式 ， 如 果 当 前 配置 中 full_page_writes 的 值 为 off， 则 
强制 更 改 ，full_page_writes 的 值 为 on9， 进 入 全 页 写 
模式 


3) 创建 一 个 检查 点 。 


4) 排他 基础 备份 的 情况 下 还 会 创建 
backup_label 文 件 ， 一 个 backup_label 文 件 包 含 以 下 
五 项 : 


.SIART WAL LOCATION : 
25/2B002118 (file 00000001000000250000002B) 

















. CHECKPOINT LOCATION: 记录 由 命令 创 
建 的 检查 点 的 LSN 位 置 ; 


. BACKUP METHOD: 做 基础 备份 的 方法 ， 
值 为 pg_start_backup 或 是 peg_basebackup， 如 果 只 是 
配置 流 复制 ，BACK up METHOD 的 值 是 streamed; 


BACKUP FROM: 备份 来 源 ， 指 是 从 mastet 
或 standby 做 的 基础 备份 ; 


- START TIME: 执行 pg_start_backup 的 时 间 


` LABEL: 在 pg_start_backup 中 指定 的 标签 。 


系统 管理 函数 pg_start_backup 的 定义 如 下 : 


pg_start_backup(label text [, fast boolean [, exclusive boolea 


该 图 数 有 一 个 必需 的 参数 和 两 个 可 选 参数 ， 
label 参 数 是 用 户 定 义 的 备份 标签 字符 串 ， 一 般 使 用 
备份 文件 名 加 日 期 作为 备份 标签 。 执 行 
pg_start_backup 会 立即 开 始 一 个 CHECKPOINT 操 
作 ，fast 参 数 默 认 值 是 false， 表 示 是 否 尽快 开始 备 
份 。exclusive 参 数 决 定 pg_start_backup 是 个 开始 一 
次 排他 基础 备份 ， 也 束 是 是 否 人 允许 其 他 并 友 的 备份 








同时 进行 ， 由 于 排他 基础 备份 已 经 被 废弃 ， 最 终 将 
被 去 除 ， 所 以 通常 设置 为 false。 在 系统 管理 水 数 
中 ， 有 一 个 pg_is_in_backup 函 数 ， 不 能 想当然 地 认 
为 它 是 用 于 判断 当前 数据 库 是 否 有 一 个 备份 在 进 
行 ， 它 只 是 检查 是 个 在 执行 一 个 排他 的 备份 ， 也 惑 
是 是 否 有 exclusive 参 数 设置 为 TRUE 的 备份 ， 不 能 
用 它 检 奏 是 否 有 非 排 他 的 备份 在 进行 。 


步骤 2 ”使 用 命令 创建 数据 目录 的 副本 。 


使 用 rsync、tar、cp、scp 等 命令 都 可 以 创建 数 
据 目 录 的 副本 。 在 创建 过 程 中 可 以 排除 pg_wal 和 
pg_replslot 目 孙 、postmaster.opts 文 件 、 
Ce 这 些 目录 和 文件 对 恢复 并 没有 
还 助 。 


























步骤 3 ”执行 pg_stop_backup 命 令 。 


在 执行 pg_stop_backup 命 令 时 ， 进 行 五 个 操作 
来 结束 备份 : 
. 如 果 在 执行 p 2_statt_backup 命 令 时 ，full-page- 
wtites 的 值 曾 被 强制 修改 ， 则 恢复 到 执行 pg-stop- 
backup 命 令 之 前 的 值 。 


. 写 一 个 备份 结束 的 XLOG 记 录 。 


. 切换 WAL 段 文件 。 


: 创建 一 个 备份 历史 文件 ， 该 文件 包含 
backup_label 文 件 的 内 容 以 及 执行 pg_stop_backup 的 
时 间 稚 。 


` 删除 backup_label 文 件 ，backup_label 文 件 对 于 
从 基本 备份 进行 恢复 是 必需 的 ， 一 旦 进行 复制 ， 原 
始 数 据 库 集群 中 就 不 需要 了 该 文件 了 。 


下 面 以 一 个 创建 非 排他 基础 备份 的 例子 演示 制 
作 基 础 备份 的 过 程 。 


步骤 1 执行 pg_start_backup 开 始 备 份 ， 如 下 
所 示 : 


mydb=# SELECT pg_start_ backup('base',false,false); 
pg_start_backup 
0/4000028 

(1 row) 


步骤 2 ”创建 数据 目录 的 副本 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ cd /pgdata/10/backups 

[postgres@pghost1 /pgdata/10/backupl]$ tar -cvf base.tar.gz /pg 
tar: Removing leading ‘/' from member names 

/pgdata/10/data/ 


/pgdata/10/data/pg_wal/000000010000000000000002 .00000028 .backu 
[postgres@pghost1 /pgdata/10/backup]$ 

[postgres@pghost1 /pgdata/10/backupl]$ 11 -h 

total 80M 

-rw-r--r-- 1 postgres postgres 80M Feb 13 00:35 base,tar .gz 





” 步 又 3 执行 pg_stop_backup 结 束 备 份 ， 如 下 
所 示 : 





mydb=# SELECT pg_stop_backup(false); 
NOTICE: pg_stop_backup complete, all required WAL segments ha 
pg_stop_backup 
(0/4000168, "START WAL LOCATION: 0/4000028 (file 0000000106 
CHECKPOINT LOCATION: 0/4000098 
BACKUP METHOD: streamed 
BACKUP FROM: master 
START TIME: 2018-02-13 00:34:24 CST 
LABEL: base 





这 样 就 完成 了 一 个 制作 基础 备份 的 过 程 。 
2. 使 用 pg_basebackup 创 建 基础 备份 
pg_basebackup 命 令 和 相关 的 参数 在 第 12 章 已 经 


讲解 ， 这 里 不 再 性 述 。 下 面 是 一 个 如 何 使 用 
pg_basebackup 创 建 基础 备份 的 例子 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_basebackup -Ft -Pv 
pg_basebackup: initiating base backup, waiting for checkpoint 


pg_basebackup: checkpoint completed 

pg_basebackup: write-ahead log start point: 33/A8000028 on tir 
52782/52782 kB (100%), 1/1 tablespace 

pg_basebackup: write-ahead log end point: 33/A8000130 
pg_basebackup: base backup completed 








看 到 最 后 一 行 输出 为 base backup completed 即 
表示 备份 已 经 完成 ， 答 看 备份 文件 ， 如 下 所 未 : 








[postgres@pghost1 ~]$ 11 -h /pgdata/10/backups/ 
total 3.8M 
-rw-r--r-- 1 postgres postgres 3.8M Feb 11 01:26 base.tar.gz 





YY 


这 样 束 完成 了 一 个 制作 基础 备份 的 过 程 。 


13.3 ”指定 时 间 和 还 原点 的 恢复 


当 出 现 故 障 进行 恢复 时 ， 通 过 重 做 WAL 日志 
可 以 将 数据 库 恢复 到 最 近 的 时 间 点 或 指定 时 间 扣 ， 
还 可 以 恢复 到 指定 的 还 原 后 。 


为 测试 不 同 的 恢复 方法 ， 前 先 创建 一 张 测 试 
Re A RA 


CREATE TABLE tbl 
( 


Id SERIAL PRIMARY KEY, 

ival INT NOT NULL DEFAULT 0， 

description TEXT， 

created time TIMESTAMPTZ NOT NULL DEFAULT now() 


”初始 化 一 些 测 试 数据 作为 基础 数据 ， 如 下 所 
作 \: 


mydb=# INSERT INTO tb]l (ival) VALUES (1); 

INSERT © 1 

mydb=# SELECT id,ival,description,created time FROM tbl; 
id | ival | description | created_time 

a 站 二 
1 | 1 | | 2018-02-13 01:26:36.767887+08 


并 且 投 照 上 文 的 方法 创建 一 个 基础 备份 。 如 果 


征 测 试 ， 有 一 点 需要 注意 ， 由 于 WAL 文 件 是 写 满 
16MB 才 会 进行 归档 ， 测 试 阶段 可 能 写 入 会 非常 

少 ， 可 以 在 执行 完 基础 备份 之 后 ， 手 动 进行 一 次 
WAL 切 换 。 例 如 : 





mydb=# SELECT pg_switch_ wal(); 
pg_switch_wal 


0/3000350 
(1 row) 


或 者 通过 设置 archive_timeout 参 数 ， 在 达到 
timeout 国 值 时 强行 切换 到 新 的 WAL 段 。 


13.3.1 恢复 到 最 近 时 间 点 


为 了 实验 恢复 到 最 近 时 间 扣 的 恢复 方法 ， 在 测 
试 表 中 写 入 一 条 ival 等 于 2 的 测试 数据 ， 如 下 所 示 : 


mydb=# INSERT INTO tbl (ival) VALUES (2); 


INSERT © 1 
mydb=# SELECT id,ival,description,created time FROM tbl; 
id | ival | description | created time 
局 Ee 
1 | 1 | | 2018-02-13 01:26:36.767887+08 
2 | 2 | | 2018-02-13 01:47:42.280831+08 
(2 rows) 





记录 最 新 一 条 数据 的 created_time 时 间 点 : 01: 


47: 42.280831+08。 
恢复 过 程 需 要 以 下 几 个 步骤: 


1) 移 除 故障 数据 库 的 数据 目录 。 如 有 打数 据 库 
还 在 运行 状态 先 停 反 它 ， 并 且 将 出 现 故 障 的 数据 目 


录 移 动 到 其 他 位 置 或 者 删除 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ctl1 -D /pgdata/10/d 
waiting for server to shut down.... done 


server stopped 
[postgres@pghost1 ~]$ rm -rf /pgdata/10/data 


2) 创建 数据 目录 并 解压 使 用 pg_basebackup 创 
建 的 基础 备份 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ mkdir -p /pgdata/10/data 
[postgres@pghost1 ~]$ chmod 0700 /pgdata/10/data 
[postgres@pghost1 ~]$ tar -xvf /pgdata/10/backups/base.tar.gz 


3) 创建 recovery.conf 文 件 并 进行 配置 。 





在 安装 目录 的 share 目 录 中 会 有 一 份 
recovery.conf 的 示例 文件 ， 将 它 复制 到 准备 恢复 的 
数据 目录 中 ， 重 命名 为 recovery.conf， 配 置 这 个 文 
件 的 权限 为 0600， 如 下 所 示 : 








[postgres@pghost1 ~]$ cp /usr/pgsql-10/share/recovery.conf.san 
[postgres@pghost1 ~]$ chmod 0600 /pgdata/10/data/recovery.conf 
[postgres@pghost1 ~]$ 11 /pgdata/10/data/recovery.conf 

-rw------- 1 postgres postgres 5762 Feb 13 01:07 /pgdata/10/de 





配置 recovery.conf， 如 下 所 示 : 





[postgres@pghost1 ~]$ vim /pgdata/10/data/recovery.conf 





恢复 到 最 近 的 时 间 点 ， 只 需要 配置 
resotre_command 一 项 参数 ， 如 下 所 示 : 





restore_command = '/usr/bin/1z4 -d /pgdata/10/archive_ wals/%f. 








这 里 其 实 应 该 还 有 一 项 起 决定 作用 的 参数 : 
recovery_target_timeline， 它 的 默认 值 为 latest， 不 做 
显 式 配 置 也 可 以 。 要 恢复 到 最 近 状 态 ， 完 整 的 
recovery.conf 古 这 样 的 : 





restore command = '/usr/bin/1z4 -d /pgdata/10/archive_wals/%f. 
recovery_target timeline = 'latest' 





4) 局 动 服 务 絮 开始 恢复 。 


启动 服务 器 后 ， 便 会 恋 取 recovery.conf 的 配置 
进入 恢复 模式 ， 如 下 所 示 : 





一 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ctl -D /pgdata/10/d 
[postgres@pghost1 ~]$ 
[postgres@pghost1 ~]$ tailf /pgdata/10/data/log/postgresql-Tue 


2018-02-13 01:32:06.745 CST,,,41781,,5a81cf96.a335,2,,2018-02- 


2018-02-13 01:32:06.908 CST,,,41781,,5a81cf96.a335,9,,2018-02- 
2018-02-13 01:32:06.946 CST,,,41781,,5a81cf96.a335,10,,2018-02 
2018-02-13 01:32:06.961 CST,,,41781,,5a81cf96.a335,11,,2018-02 
2018-02-13 01:32:07.007 CST,,,41781,,5a81cf96.a335,12,,2018-02 
2018-02-13 01:32:07.413 CST,,,41779,,5a81cf95.a333,3,,2018-02- 





恢复 过 程 结束 后 ，recovery.conf 将 由 
PostgreSQL 上 自动 重 命名 为 recovery.done， 以 避免 再 
次 局 动 恢 复 过 程 。 


5) 检 和 碍 数据 是 否 已 经 恢复 成 功 ， 如 下 所 示 : 








mydb=# SELECT id,ival,description,created time FROM tbl; 


id | ival | description | created time 
了 Ee 
1 | 1 | | 2018-02-13 01:26:36.767887+08 
2 | 2 | | 2018-02-13 01:47:42.280831+08 
(2 rows) 











从 僵 询 结果 可 以 看 到 数据 库 已 经 恢复 到 骨 演 之 
前 最 近 的 时 间 点 。 


13.3.2 ”恢复 到 指定 时 间 点 


当 有 一 些 破 坏 性 操作 友 生 时 ， 通 第 我 们 希望 恢 
复 到 灾难 之 前 的 时 间 操 ， 而 不 是 恢复 到 最 近 的 时 间 


WYo 


下 面 我 们 通过 一 个 实验 了 解 恢复 到 指定 时 间 扣 
的 方法 。 妆 前 数据 表 中 有 以 下 这 些 数据 : 





mydb=# SELECT id,ival,description,created time FROM tbl ORDER 


id | ival | description | created_time 

和 » 
3 3 | 2018-02-28 12:20:05.003997+08 
2 


| | 
| 2 | | 2018-02-28 12:14:05.248928+08 
| | 2018-02-28 12:13:59.472933+08 
(3 rows) 
mydb=# SELECT current_ timestamp; 
current_timestamp 
2018-02-28 15:12:12.185701+08 
(1 row) 





模拟 一 个 误 操 作 的 故障 ， 假 设 运行 了 一 条 没有 
WHERE 条 件 的 DELETE 操 作 ， 导 致 所 有 数据 被 删 
除 ， 如 下 所 示 : 





mydb=# DELETE FROM tbl; 

DELETE 3 

mydb=# SELECT id,ival,description,created time FROM tbl ORDER 
id | ival | description | created_ time 

J 于 

(9 rows ) 


需要 恢复 到 current_timestamp 这 个 时 间 点 之 
前 ， 那 么 我 们 只 需要 取出 基础 备份 ， 将 
recovery.conf 配 置 为 : 





restore command = '/usr/bin/1z4 -d /pgdata/10/archive_ wals/%f. 
recovery_target time = '2018-02-28 15:12:12.185701+08 





然后 启动 数据 库 进 入 恢复 状态 ， 观 察 日 志 ， 如 
下 所 示 : 





2018-02-28 15:19:;42.025 CST,,,16251,,5a96580e.3f7b,2,,2018-02- 
2018-02-28 15:19:;42.203 CST,,,16251,,5a96580e.3f7b,9,,2018-02- 


2018-02-28 15:19:;42.678 CST,,,16249,,5a96580d.3f79,3,,2018-02- 





以 上 步骤 结束 后 ， 校 验 误 删 除 的 数据 是 否 已 经 
恢复 ， 如 下 所 示 : 





mydb=# SELECT id,ival,description,created time FROM tbl ORDER 


id | ival | description | created_time 
让 Re 
3 | 3 | | 2018-02-28 12:20:05.003997+08 
2 | 2 | | 2018-02-28 12:14:05.248928+08 
1 | 1 | | 2018-02-28 12:13:59.472933+08 
(3 rows) 


可 以 看 到 数据 已 经 恢复 到 指定 的 时 间 点 。 
13.3.3 ”恢复 到 指定 还 原点 


有 时 候 我 们 会 希望 将 数据 恢复 到 茶 一 个 重要 事 
件 及 生 之 前 的 状态 ， 例 如 对 表 做 了 一 些 变 更 ， 和 希望 
恢复 到 变更 之 前 。 这 种 情况 可 以 在 重要 事件 及 生 时 
创建 一 个 还 原点 ， 通 过 基础 备份 和 归档 恢复 到 事件 
发 生 之 前 的 状态 。 


创建 还 原点 的 系统 函数 为 : 
pg_create_restore_point， 它 的 定义 如 下 : 





mydb=# \df pg_create restore point 
List of functions 


Schema | Name | Result data type | Ar 
和 2 

pg_catalog | pg_create restore point | pg_lsn | t 
(1 row) 


下 面 我 们 通过 一 个 小 实验 演示 如 何 恢复 到 指定 
的 还 原点 之 前 ， 实 验 过 程 中 依然 使 用 上 述 测试 数 
所， 首先 三 询 当 前 表 中 的 数据 ， 如 下 所 示 : 














mydb=# INSERT INTO tbl (ival) VALUES (4); 


INSERT © 1 
mydb=# SELECT id,ival,description,created time FROM tbl ORDER 
id | ival | description | created time 


ee DE 


4 | 4 | | 2018-02-28 15:21:21.960729+08 

3 | 3 | | 2018-02-28 12:20:05.003997+08 

2 | 2 | | 2018-02-28 12:14:05.248928+08 

1 | 1 | | 2018-02-28 12:13:59.472933+08 
(4 rows) 





创建 一 个 还 原 上 把 ， 如 下 所 示 : 





mydb=# SELECT pg_create_restore point('restore point"'); 
pg_create_restore_point 
0/C0000C8 

(1 row) 





接 下 来 我 们 对 数据 做 一 些 变更 ， 并 且 DROP 表 
中 的 一 列 ， 如 下 所 示 : 





mydb=# DELETE FROM tbl WHERE id = 4; 

DELETE 1 

mydb=# ALTER TABLE tbl DROP COLUMN description; 
ALTER TABLE 

mydb=# SELECT * FROM tbl ORDER BY created time DESC; 


id | ival | created_time 
NE Ey oD Ee 
3 | 3 | 2018-02-28 12:20:05.003997+08 
2 | 2 | 2018-02-28 12:14:05.248928+08 
1 | 1 | 2018-02-28 12:13:59,.472933+08 
(3 rows ) 





下 面 进 行 恢 复 到 名 称 为 “restore_point” 还 原点 的 
实验 ， 如 下 所 示 : 





[postgres@pghost1 /pgdata/1i0/datal$ /usr/pgsql-10/bin/pg_ctl1 - 
waiting for server to shut down.... done 

server stopped 

[postgres@pghost1 /pgdata/10/datal$ 

[postgres@pghost1 /pgdata/10/datal$ rm -rf * 

[postgres@pghost1 /pgdata/1i0/datal$ tar -xf /pgdata/10/backups 
[postgres@pghost1 /pgdata/10/datal$ cp /usr/pgsql-10/share/rec 
[postgres@pghost1 /pgdata/1i0/datal$ chmod 0600 /pgdata/10/data 
[postgres@pghost1 /pgdata/1i0/datal$ 1l1 /pgdata/10/data/recover 
-rw------- 1 postgres postgres 5762 Feb 13 01:07 /pgdata/10/da 





配置 recovery.conf， 如 下 所 示 : 





[postgres@pghost1 ~]$ vim /pgdata/10/data/recovery.conf 





恢复 到 指定 的 还 原点 ， 需 要 配置 
restore_command 和 recovery_target_name 参 数 ， 如 下 


所 示 : 





restore command = '/usr/bin/1z4 -d /pgdata/10/archive_ wals/%f. 
recovery_target name = 'restore point' 





然后 局 动 数 据 库 进 入 恢复 状态 ， 观 察 日 志 ， 如 
下 所 示 : 





2018-02-28 16:28:33.396 CST,,,32457,,5a966831.7ec9,2,,2018-02- 


2018-02-28 16:28:33.450 CST,,,32455,,5a966830.7ec7,2,,2018-02- 


2018-02-28 16:28:33.985 CST,,,32455,,5a966830.7ec7,3,,2018-02- 





局 动 结束 后 进行 校 验 ， 如 下 所 示 : 





mydb=# SELECT * FROM tbl ORDER BY created time DESC; 


id | ival | description | created_time 
着 TT 
4 | 4 | | 2018-02-28 15:21:21.960729+08 
3 | 3 | | 2018-02-28 12:20:05.003997+08 
2 | 2 | | 2018-02-28 12:14:05.248928+08 
1 | 1 | | 2018-02-28 12:13:59.472933+08 
(4 rows) 





可 以 看 到 数据 已 经 恢复 到 指定 的 还 原 所 


restore_point。 
13.3.4 恢复 到 指定 事务 

PostgreSQL 还 提供 了 一 种 可 以 恢复 到 指定 事务 
的 方法 ， 下 面 我 们 通过 一 个 小 实验 演示 如 何 将 数据 
库 恢 复 到 指定 的 事务 之 前 的 状态 。 


当前 数据 库 中 数据 的 状态 如 下 : 








一 


mydb=# SELECT * FROM tbl ORDER BY created time DESC; 


id | ival | description | created_time 
a ee ne ee ey fe et te se 
4 | 4 | | 2018-02-28 15:21:21.960729+08 
3 | 3 | | 2018-02-28 12:20:05.003997+08 
2 | 2 | | 2018-02-28 12:14:05.248928+08 
1 | 1 | | 2018-02-28 12:13:59.472933+08 
(4 rows) 








我 们 开局 一 个 事务 ， 删 除 其 中 的 一 些 数据 ， 如 
TL 





mydb=# BEGIN; 

BEGIN 

mydb=# SELECT txid_current(); 
txid_current 


(1 row) 

mydb=# DELETE FROM tbl WHERE id > 1; 
DELETE 3 

mydb=# END; 

COMMIT 





事务 结束 后 ， 数 据 库 中 数据 的 状态 如 下 : 





mydb=# SELECT * FROM tbl ORDER BY created time DESC; 


id | ival | description | created_time 
六 wR 
1 | 1 | | 2018-02-28 12:13:59.472933+08 
(1 row) 








通过 事务 中 有 反馈 的 信息 可 以 知 违 当前 事务 的 





xid 为 561。 下 面 进行 恢复 到 事务 561 之 前 的 实验 ， 恢 
复 基 础 备份 ， 省 略 准备 recovery.conf 文 件 的 步骤 。 
配置 recovery.conf 如 下 : 





restore command = '/usr/bin/1z4 -d /pgdata/10/archive_ wals/%f. 
recovery_target xid = 561 





恢复 到 指定 的 事务 ， 需 要 配置 restore_command 
和 recovery_target_xid 参 数 ， 然 后 启动 数据 库 进 入 恢 
复 状 态 ， 观 察 日 志 ， 如 下 所 示 : 





2018-02-28 18:06:55,830 CST,,,7036,,5a967f3f.1b7c,2,,2018-02-2 
2018-02-28 18:06:56.003 CST,,,7036,,5a967f3f.1b7c,9,,2018- 


2018-02-28 18:06:55.883 CST,,,7033,,5a967f3e.1b79,2,,2018-02-2 





恢复 过 程 结束 后 ， 校 验 数据 ， 如 下 所 示 : 





mydb=# SELECT * FROM tbl ORDER BY created time DESC; 


id | ival | description | created time 

Sn 下 
4 | 4 | | 2018-02-28 15:21:21.960729+08 
3 | 3 | | 2018-02-28 12:20:05.003997+08 
2 | 2 | | 2018-02-28 12:14:05.248928+08 


1 | 1 | | 2018-02-28 12:13:59.472933+08 
(4 rows ) 


可 以 看 到 数据 已 经 恢复 到 指定 的 事务 之 前 的 状 


13.3.5 ”恢复 到 指定 时 间 线 


前 几 小 市 已 经 讨论 了 恢复 到 最 近 时 间 点 、 侈 复 
到 指定 时 间 点 、 恢 复 到 指定 还 原点 以 及 : 恢复 到 指定 
事务 。 在 13.3.1 节 中 ， 我 们 所 到 了 一 个 参数 : 
recovery _target_timeline。 下 面 我 们 来 认识 
timeline: 时 间 线 ， 并 进行 一 个 恢复 到 指定 时 间 线 的 
实验 。 


当 数 据 库 初始 化 时 ，initdb 创 建 的 原始 数据 目 
录 的 TimeLineID 为 1。 进 行 初始 化 并 得 看 它 的 
TimeLineID ， 如 下 上 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/initdb -D /pgdata/10/d 


[postgres@pghost1 ~]$ /usr/pgsql1- J controldata /pgdata 
Latest checkpoint's TimeLineID: 
Latest checkpoint's PrevTimeLineID: 


每 进行 一 次 恢复 ，TimeLineID 将 加 1。 将 刚才 


初始 化 的 数据 进行 一 次 备份 ， 模 拟 一 些 操作 并 进行 
一 次 恢复 ， 恢 复 之 后 再 查看 它 的 TimeLineID， 如 下 
所 示 : 





mydb=# INSERT INTO tbl (ival,description) VALUES (1, ' 完 成 数据 初 1 


INSERT © 1 

mydb=# INSERT INTO tbl (ival,description) VALUES (2,' 第 一 次 备份 

INSERT © 1 

mydb=# SELECT id,ival,description,created time FROM tbl; 
id | ival | description | created_time 

RE em 
1 | 1 | 完成 数据 初始 化 ”| 2018-02-28 21:23:41.881687+08 
2 | 2 | 第 一 次 备份 前 | 2018-02-28 21:24:25.07764+08 

(2 rows) 


mydb=# SELECT pg_switch_ wal(); 
pg9_switch_ wal 
0/167D4D8 

(1 row) 





查看 pg_wal 目 录 和 归档 目录 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ 11 -h /pgdata/10/data/pg_wal/ 
total 33M 


-TW------- 1 postgres postgres 16M Feb 28 21:29 000000010000C 
-rw------- 1 postgres postgres 16M Feb 28 21:29 000000010000C 
drwx------ 2 postgres postgres 4.0K Feb 28 21:29 archive_statu 


[postgres@pghost1 ~]$ 11 -h /pgdata/10/data/pg_wal/archive_sta 
total 0 

-rw------- 1 postgres postgres 0 Feb 28 21:29 000000010000000C 
[postgres@pghost1 ~]$ 11 -h /pgdata/10/archive wals/ 

total 2.3M 

-rw------- 1 postgres postgres 2.3M Feb 28 21:29 0000000100005 





数据 初始 化 之 后 ， 执 行 了 一 次 pg_switch_wal 手 


动 切 换 了 WAL 文 件 段 ， 所 以 归档 目录 已 经 有 了 第 一 
个 预 写 日 志 段 ， 目 前 在 pg_wal 目 录 中 只 有 预 写 日 志 
文件 和 archive_status 目 录 。 


开始 执行 第 一 次 备份 及 恢复 ， 备 份 和 恢复 的 过 
程 略 ， 恢 复 绪 束 后 ， 再 次 得 看 它 的 TimeLineID ， 如 
下 所 示 : 











[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_controldata /pgdatae 
Latest checkpoint's TimeLineID: 2 
Latest checkpoint's PrevTimeLineID: 1 





分 别 查 看 pg_wal 目 录 和 归档 目录 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ 11 -h /pgdata/10/data/pg_wal/ 


total 33M 

-TW------- 1 postgres postgres 16M Feb 28 22:19 000000010000C 
-rw------- 1 postgres postgres 16M Feb 28 22:21 0000000200005 
-rw------- 1 postgres postgres 41 Feb 28 22:19 00000002.hist 
drwx------ 2 postgres postgres 4.0K Feb 28 22:19 archive_statu 
[postgres@pghost1 ~]$ 11 -h /pgdata/10/data/pg_wal/archive_sta 
total 0 

-TW------- 1 postgres postgres 0 Feb 28 21:33 000000010000000C 
-rw------- 1 postgres postgres 0 Feb 28 22:19 00000002.history 





可 以 看 到 pg_wal 目 录 中 ， 除了 WAL 文 件 ， 还 有 
一 些 后 级 名 为 “.history” 的 文件 ， 这 些 文 件 称 为 时 间 
线 文件 ， 时 间 线 文件 用 于 区 分 原始 数据 库 集 群 和 恢 
复 的 数据 库 集 群 ， 是 基于 时 间 点 恢复 的 最 重要 的 概 





念 。 每 个 时 间 线 都 有 一 个 相应 的 TimeLineID， 
TimeLineID 是 一 个 从 1 开始 的 4 字 市 无 从 号 整数 。 时 
间 线 文件 的 命名 格式 是 “TimeLineID.history”， 当 前 
的 TimeLineID 为 2， 时 间 线 文件 的 名 即 为 
00000002.history。 


查看 归档 目录 ， 可 以 看 到 时 间 线 文件 也 会 被 归 
档 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ 11 -h /pgdata/10/archive wals/ 


total 2.5M 

-TW------- 1 postgres postgres 2.3M Feb 28 21:29 000000010000C 
-rw------- 1 postgres postgres 78K Feb 28 21:33 000000010000C 
-rw------- 1 postgres postgres 216 Feb 28 21:33 000000010000C 
-rw------- 1 postgres postgres 78K Feb 28 21:33 000000010000C 
-rw------- 1 postgres postgres 60 Feb 28 22:19 00000002.hist 





插入 一 些 测 试 数据 作为 下 一 步 恢 复 的 标记 数 
据 ， 如 下 所 示 : 





mydb=# INSERT INTO tbl (ival,description) VALUES (3,' 第 一 次 恢复 : 


INSERT 0 1 

mydb=# INSERT INTO tbl (ival,description) VALUES (4，' 恢 复 时 间 点 

INSERT 0 1 

mydb=# SELECT id,ival,description,created time FROM tbl; 
id | ival | description | created_time 

=------- t= 
1 | 1 | 完成 数据 初始 化 ”| 2018-02-28 21:23:41.881687+08 
2 | 2 | 第 一 次 备份 前 | 2018-02-28 21:24:25.07764+08 
3 | 3 | 第 一 次 恢复 完成 ”| 2018-02-28 22:21:03.68966+08 
4 | 4 | 恢复 时 间 点 | 2018-02-28 23:01:58.253911+08 

(4 rows) 





再 做 一 次 恢复 ， 改 变 时 间 线 ， 这 时 恢复 到 时 间 
线 的 是 最 后 一 个 时 间 线 ， 并 且 是 最 近 的 时 间 点 ， 但 
我 们 期 望 恢复 到 上 述 插 入 时 间 的 “4|4| 恢 复 时 间 
点 |2018-02-2823: 01: 58.253911+08” 这 条 记录 之 
前 ， 那 么 束 需 要 指定 recovery_target_timeline 参 数 为 
2， 并 指定 恢复 的 时 间 点 ，recovery.conf 的 配置 如 
下 : 














restore command = '/usr/bin/1z4 -d /pgdata/10/archive_ wals/%f. 
recovery_target_ timeline = 2 
recovery_target time = '2018-02-28 23:00:00， 


检查 恢复 后 的 数据 ， 如 下 所 示 : 


mydb=# SELECT id,ival,description,created time FROM tbl; 


id | ival | description | created time 
二 末 二 二 二 后 训 呈 于 二 全 全 症 二 囊 全 让 二 全 二 站 三 生 站 于 二 有 二 站 和 全 站 生 全 二 避 站 二 全 避 二 有 二 站 怀 区 本 二 六 有 呈 二 芭 友 
1 | 1 | 完成 数据 初始 化 | 2018-02-28 21:23:41,881687+08 
2 | 2 | 第 一 次 备份 前 | 2018-02-28 21:24:25.07764+08 
3 | 3 | 第 一 次 恢复 完成 | 2018-02-28 22:21:03.68966+08 
(3 rows) 


可 以 看 到 已 经 恢复 到 时 间 线 2 的 指定 时 间 操 。 


13.4 SQL 转 储 和 文件 系统 级 别 的 备份 


上 一 市 我 们 讨论 了 连续 归档 增 量 备份 的 方法 和 
儿 种 不 同 的 恢复 形式 。 还 有 一 些 日 第 的 备份 和 恢复 
则 需要 使 用 其 他 的 备份 方式 作为 增 量 备份 
的 补充 。 


例如 需要 将 PostgreSQL 数 据 库 中 的 某 些 表 的 数 
据 迁 移 到 其 他 的 关系 型 数据 库 中 。 这 些 备份 方式 有 
SQL 转 储 和 文件 系统 级 别 的 备份 ， 下 面 分 别 进行 讨 


论 。 








13.4.1 SQL 转 储 


简单 来 讲 ，SQL 转 储 束 是 将 数据 对 象 通 过 工具 
输出 到 由 SQL 命令 组 成 的 文件 中 ， 也 可 以 称 为 转 储 
数据 ，PostgreSQL 提 供 了 pg_dump 和 和 pg_dumpall 工 
有 具 进行 SQL 转 储 ， 这 两 个 工具 都 不 会 阻塞 其 他 数据 
库 请 求 。pg_dump 和 pg_dumpall 的 用 法 大 人 至 相同 ， 
只 是 pg_dump 只 能 转 储 单个 数据 库 ， 如 果 需 要 转 储 
数据 库 的 全 局 对 象 ， 则 使 用 pg_dumpall。 


1.pg_dump 和 pg_dumpall 的 用 法 


pg_dump 的 语法 如 下 : 











pg_dump dumps a database as a text file or to other formats. 
Usage: 
pg_dump [OPTION]... [DBNAME] 


pg-dump 常 用 的 OPTION 可 选项 有 : 


-F, --format=c|d|tl|p 


nn 出 的 文件 格式 ， 可 选 的 
值 有 : 


“Cc 输 出 一 个 自 定 义 的 格式 


. d 将 表 和 其 他 对 象 输出 为 文件 ， 并 保存 在 一 
个 目录 中 


` t 输 出 为 tar 包 


Pp 输 出 为 纯 文本 SQL 脚 本 


-J], --jobs=NUM 


当 使 用 目录 输出 格式 〈F 参 数 的 值 为 d) 时 ， 可 
以 同时 开始 多 少 个 表 进 行 dump。 


-a, --data-only 





只 dump 表 中 的 数据 。 





-CcC, --Clean 








在 重建 前 先 DROP 准 备 重 建 的 对 象 。 





-C, --create 





包含 创建 Database 的 命令 。 





-n，--Schema=SCHEMA 
-N, --exclude-schema=SCHEMA 





指定 Schema 或 排除 指定 的 Schema。 





-S, --Schema-only 
-t, --table=TABLE 
-T, --exclude-table=TABLE 





这 三 个 参数 指定 转 储 包含 或 排除 的 Schema 和 





--inserts dump data as INSERT commands, rat 


--Ccolumn-inserts dump data as INSERT commands with 


默认 的 ，pg_dump 输 出 的 SQL 文 件 内 使 用 
PostgreSQL 特 有 的 COPY 命 令 ， 可 以 使 用 这 两 个 参 
数 指 定 转 储 出 的 SQL 文 件 使 用 INSERT 命 令 。 使 用 
INSERT 命 令 通 过 逐 行 插入 数据 的 恢复 方 式 会 比较 
缓慢 ， 但 用 于 非 PostgreSQL 的 异 构 数据 库 是 非常 有 
用 的 。 这 里 要 注意 ， 一 般 使 用 --insert 参 数 时 ， 也 应 
该 使 用 --column-inserts 参 数 使 得 输出 的 INSERT 语 句 
明确 指定 列 名 称 ， 如 果 没 有 明确 指定 列 的 名 称 ， 当 
字段 顺序 重新 进行 了 排列 时 可 能 不 能 正确 恢复 数 
据 。 


例如 从 数据 库 中 轻 储 出 指 定 的 表 ， 并 指定 输出 
的 SQL 文件 使 用 INSERT 命 令 ， 如 下 所 示 : 

















[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ dump -Fp -a --inser 
[postgres@pghost1 ~]$ cat dump.sql 


-- PostgreSQL database dump 
-- Dumped from database version 10.2 


-- Dumped by pg_dump version 10.2 
SET statement timeout = 0; 


SET search path = public, pg_catalog; 
-- Data for Name: tbl; Type: TABLE DATA; Schema: public; Owner 


INSERT INTO tb]l (id, ival, description, created time) VALUES ( 
INSERT INTO tb]l (id, ival, description, created time) VALUES ( 


INSERT INTO tb]l (id, ival, description, created time) VALUES ( 
- Name: tbl id _ seq; Type: SEQUENCE SET; Schema: public; Owner 
SELECT pgy_catalog.setval('tbl id seq', 36, true); 


-- PostgreSQL database dump complete 





pg_dumpall 的 用 法 和 参数 与 pg_dump 大 致 相 
同 ， 但 可 以 转 储 出 数据 库 中 的 全 局 对 象 ， 例 如 所 有 
数据 库 用 户 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_dumpall -r -p 1921 
- PostgreSQL database cluster dump 

SET default_transaction read_only = off， 

SET client_ encoding = 'UTF8'; 

SET standard_conforming_strings = on; 


- Roles 


CREATE ROLE postgres; 
ALTER ROLE postgres WITH SUPERUSER INHERIT CREATEROLE CREATEDE 


-- PostgreSQL database cluster dump complete 





2.SQL 转 储 的 恢复 


当 转 储 的 格式 是 纯 文本 形式 时 ， 使 用 psql 运 行 
转 储 出 的 SQL 文 本 即 可 。 例 如 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/psql -p 1922 mydb < du 








当 转 储 格 式 指定 为 目 定 义 格式 时 ， 需 要 使 用 
pg_restore 命 令 进行 恢复 ， 例 如 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_dump -Fc -p 1922 my 


恢复 时 使 用 pg_restore 命 令 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_restore -p 1922 -d 


pg_dump、pg_dump 和 和 pg_restore 的 参数 众多 ， 
但 恢复 方法 却 非常 简单 ， 这 里 就 不 一 一 袭 述 了 。 





13.4.2 ”文件 系统 级 别 的 备份 


文件 系统 级 别 的 备份 就 很 简单 了 ， 只 要 停 挥 运 
行 中 的 数据 库 ， 并 将 数据 目录 包括 表 空 间 使 用 cp、 
tar、nc 等 命令 创建 一 份 副 本 ， 保 存在 合适 的 地 方 即 
可 。 它 与 转 储 方式 较 大 的 不 同 在 于 转 储 方式 不 需要 
停 卸 运行 中 的 数据 库 ， 而 文件 系统 级 别 的 备份 如 果 
在 运行 状态 进行 备份 ， 将 会 得 到 一 个 不 一 致 的 备份 
集 ; 并 用 文 件 系统 级 别 的 备份 通 篆 只 能 备份 整个 数 
据 库 ， 而 转 储 方式 则 要 灵活 很 多 ， 可 以 按 需 备份 ， 


还 可 以 方便 地 对 超大 的 备份 集 进 行 分 割 ， 具 体 使 用 
何 种 备份 方式 可 根据 实际 需 ;要 进行 选择 


13.5 本章 小 结 


备份 和 恢复 是 数据 库 定理 中 非常 重要 的 工作 ， 
本 文通 过 一 些 人 简 捍 的 例子 讲解 了 转 储 、 文 件 系 统 级 
别 方式 的 备份 以 及 增 量 备份 的 备份 方式 ， 介 绍 了 局 
复 到 最 近 状 在 、 指 定时 间 点 、 指 定时 间 线 、 指 定 还 
原点 等 多 种 恢复 方式 ， 并 对 备份 和 恢复 的 策略 提出 
了 一 些 建议 。 还 有 一 些 优秀 的 开源 、 免 费 工 具 ， 例 
如 pg_rman、pg_backrest 等 ， 可 以 帮助 数据 库 管理 
员 完 成 较 复 杂 的 备份 和 恢复 策略 ， 在 这 里 没有 涉及 
太 多 内 容 ， 有 兴趣 的 读者 可 以 进行 研究 使 用 。 大 家 
应 该 通过 这 些 备份 方 式 的 组 合 ， 配 合 备份 策 略 进行 
周密 的 备份 ， 并 且 周 期 性 地 进行 恢复 测试 ， 保 证 数 
据 的 安全 。 








第 14 章 ”高 可 用 


制定 数据 库 高 可 用 方案 是 DBA 的 主要 工作 之 
一 ， 熟 悉 Oracle 的 朋友 应 该 了 解 Oracle 稼 用 的 高 可 
用 方案 为 RAC，RAC 高 可 用 方案 使 用 两 台 或 两 合 以 
上 物理 机 加 共享 存储 实现 ，PostgreSQL 现 阶段 不 支 
持 类 似 RAC 的 方案 ， 但 可 以 结合 PostgreSQL 流 复制 
pW 第 12 章 中 详细 介绍 了 流 复制 相关 
全 


PostgreSQL 尝 复制 主要 有 两 种 模式 : 同步 流 复 
制 和 异步 流 复 制 ， 在 同步 流 复 制 模 式 中 ， 主 库 上 提 
交 的 事务 会 等 得 至 少 一 个 备 库 接收 WAL 日 志 流 并 发 
回 确认 信息 后 主 库 才 回 客户 端 返 回 成 功 ， 因 此 同步 
流 复 制 模式 下 主 库 、 备 库 的 数据 理论 上 是 完全 一 臻 
的 ， 这 种 模式 下 高 可 用 方案 只 需 提 供 一 个 
VIP (virtual ip) 做 高 可 用 IP， 通 第 这 个 VIP 绑 定 在 
主 库 主机 上 ， 当 主 库 异 各 时， 将 VIP 球 移 到 备 库 主 
机 上 即 可 ， 同 步 流 复制 写 性 能 损耗 较 大 ， 生 产 环境 
很 少 使 用 同步 流 复 制 环境 ， 特 别 是 只 有 一 主 一 备 的 
环境 ， 因 为 同步 流 复 制备 库 宕 机 时 ， 主 库 的 写 操 作 
将 被 阻 宗 ， 相 当 于 多 了 一 个 故障 点 ， 因 此 本 章 中 介 
绍 的 高 可 用 方案 都 是 基于 异步 流 复 制 模式 。 


异步 流 复制 模式 中 ， 主 库 上 提交 的 事务 不 会 等 



































符 备 库 接 收 WAL 日 志 流 并 及 回 确认 信息 后 主 库 才 加 
客户 站 返回 成 功 ， 因 此 卉 步 流 复制 模式 下 主 库 、 备 
库 的 数据 存在 一 定 延 迟 ， 延 迟 的 时 间 受 主 库 压力 、 
主 备 库 主机 性 能 、 网 络 着 宽 影 响 ， 当 主 库 不 是 很 忙 
并 且 主 备 库 主机 压力 不 是 很 大 时 ， 主 备 数据 延迟 通 
各 能 在 坚 秒 级 ， 因 此 ， 基 于 有 异步 流 复制 制定 高 可 用 
方案 时 需要 考虑 主 备 数据 延迟 的 因 系 ， 例 如 可 以 设 
置 一 个 主 备 延迟 阀 值 ， 当 主 库 宕 机 时 ， 只 有 当 备 库 
的 延迟 时 间 在 指定 赋值 内 才 做 主 备 切换 ， 这 方面 属 
义 设 置 。 


本 草 介 绍 两 种 PostgreSQL 融 可 用 方案 ， 一 种 是 
基于 Pgpool-II+ 异 步 流 复制 方案 ， 一 种 是 基于 
Keepalived+ 异 步 流 复 制 方案 。 











14.1 ”Pgpool-II+ 寞 步 流 复制 实现 高 可 用 


本 节 介 绍 基 于 Pgpool-I1I 和 异步 流 复 制 的 高 可 用 
方案 ，Pgpool-I 是 一 秋 数 据 库 中 间 件 ， 已 经 有 十 几 
年 的 历史 ， 作 者 为 来 自 日 本 的 石井 达 夫 ， 下 面 介 绍 
Pgpool-I 的 主要 特性 ， 为 了 描述 方便 ， 后 续 将 
Pgpool-II 人 简称 为 pgpool。 








. 连接 池 : pgpool 提 供 连 接 池 功能 ， 降 低 建 立 
连接 市 来 的 开销 ， 同 时 增加 系统 的 吞吐 量 。 


负载 均衡 : 如 果 数 据 库 运行 在 复制 模式 或 主 
备 模式 下 ，SELECT 语 多 运行 在 集群 中 任何 一 个 节 
点 都 能 返回 一 致 的 结果 ，pgpool 能 将 查询 语句 分 发 
到 和 集群 的 各 个 数据 库 中 ， 从 而 提升 系统 的 吞吐 量 ， 
负载 均衡 适用 于 只 读 场 景 。 


` 高 可 用 : 当 人 和 集群 中 的 主 库 不 可 用 时 ，pegpool 
能 够 探测 到 并 且 激 活 备 库 ， 实 现 故 障 转 移 。 

复制 : pgpool 可 以 管理 多 个 PostgreSQL 数 据 
库 ， 这 是 pgpool 内 置 的 复制 特性 ， 也 可 以 使 用 外 部 
复制 方式 ， 例 如 PostgreSQL 的 流 复 制 等 。 


本 章 主 要 测试 pgpool 提 供 的 高 可 用 功能 ， 


pgpool 提 供 的 连接 池 、 负 载 均 衡 、pgpool 内 置 复制 
功能 本 书 不 一 一 介绍 ， 有 兴趣 的 朋友 可 参考 pgpool 
官网 文档 自行 测试 。 


值得 一 提 的 是 pgpool 的 运行 模式 有 以 下 四 种 ， 
pgpool 运 行 时 这 四 种 模式 之 间 不 能 在 线 切 换 。 


` 流 复 制 模 式 : 使 用 PostereSQL 流 复制 方式 ， 
PostgreSQL 流 复制 负责 pgpool 后 端 数据 库 数 据 同 
步 ， 对 应 的 配置 文件 为 
$prefix/etc/pgpool.conf.sample-stream， 这 种 模式 支 
持 负 载 均衡 。 


` 主 备 模 式 : 使 用 第 三 方 工 具 Slony 对 pgpool 后 
端 数 据 库 进行 数据 同步 ， 不 推荐 这 种 方式 ， 除 非 有 
特别 的 理由 使 用 Slony， 配 置 文件 为 
$prefix/etc/pgpool.conf.sample-mastet-slave， 这 种 模 


式 支 持 负 载 均衡 。 


` 内 置 复制 模式 : 这 种 模式 下 pgpool 负 责 后 端 
数据 库 数据 同步 ，pgpool 凶 点 上 的 写 操作 需 等 待 所 
有 后 端 数据 库 将 数据 写 入 后 才 向 客户 端 返回 成 功 ， 
是 强 同步 复制 方式 ， 配 置 文件 为 
$prefix/etc/pgpool.conf.sample-replication.， 这 种 模式 
支持 负载 均衡 。 





原始 模式 : 这 种 模式 pgpool 不 负责 后 端 数据 
库 数据 同步 ， 数 据 库 的 数据 同步 由 用 户 负责 ， 对 应 
配置 文件 为 $prefix/etc/pgpool.conf.sample， 这 种 模 
式 不 支持 负载 均衡 。 


Pgpool 官 方 推荐 流 复 制 模 式 ， 男 外 三 种 模式 使 
用 较 少 ， 本 市 的 测试 也 是 基于 这 种 模式 。 


本 节 测 试 环境 为 两 台 物 理 机 ， 并 且 预 先 部 署 好 
了 PostgreSQL 异 步 流 复制 ， 关 于 异步 流 复制 的 部 署 
可 参阅 12.1 市 ， 测 试 环境 详 见 表 14-1。 


表 14-1 pgpool+ 异 步 流 复 制 实验 环境 
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14.1.1 pgpool 部 署 架构 图 


pgpool 架 构 如 图 14-1 所 示 。 
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pghost4 pghosts 


图 14-1 pgpool 部 着 架构 图 


pghost4 和 pghost5 部 车 异步 流 复 制 ， 其 中 
pghost4 部 萤 流 复制 主 库 ，pghost5 部 敬 流 复制 备 
库 ， 同 时 pgpool 主 进程 部 团 在 pghost4 上，pgpool 备 
进程 部 署 在 pghost5 上， 两 者 通过 看 门 狗 
(watchdog)〉 进行 通信 ， 以 上 有 是 此 方案 的 初始 环 
境 ， 当 发 生 故 障 转 移 时 以 上 组 件 角色 会 发 生 切 换 。 


watchdog 是 pgpool 的 核心 组 件 ，watchdog 在 
pgpool 方 案 中 扮 泗 非 常 重 要 的 角色 ， 当 局 动 pgpool 
时 会 启动 watchdog 子 进程 ， 主 要 作用 为 : 


* 和 pgpool 后 端 PostgreSQL 数 据 库 节点 以 及 远 
程 pgpool 节 点 进行 通信 。 


。 对 远程 pogpool 蔬 点 是 否 存 活 进 检查 。 


* 当 watchdog 子 进程 启动 时 ， 对 本 地 pgpool 的 
配置 和 远程 pgpool 的 配置 参数 进行 检查 ， 并 且 输 出 
本 地 和 远程 pgpool 不 一 致 的 参数 


当 pgpool 主 节点 宕 机 时 ，watchdog 集 群 将 选 
举 出 新 的 watchdog 主 节点 。 


: 当 pgpool 备 节点 激活 成 主 节点 时 ，watchdog 
负责 将 VIP 飘 移 到 新 的 pgpool 凶 点 。 


14.1.2 ”pgpool 部 署 


pgpool 官 网 下 载 最 新 版 本 Pgpool-II 3.6.6， 可 以 
下 载 RPM 包 ， 也 可 以 下 载 源码 ， 我 们 使 用 源码 安 状 
方式 ， 下 载 源 码 地 址 
为 http://www.pgpool.net/download.php?f=pgpool-II- 
3.6.6.tar.gz 。 


pghost4 和 pghost5 解 压 安装 包 pgpool-II- 
3.6.6.tar.gz， 如 下 所 示 : 


# tar xvf pgpool-II-3.6.6.tar,gz 


编译 安装 如 下 : 


# ./configure --prefix=/opt/pgpool --with-pgsql=/opt/pgsql 
# make 
# make install 


安装 完成 后 ，/opt/pgpool 目 录 下 生成 了 相应 文 
件 ， 如 下 所 示 : 


[root@pghost4 etcl# 11 /opt/pgpool/ 

total 20 

drwxr-xr-x 2 root root 4096 Oct 4 14:39 bin 
drwxr-xr-x 2 root root 4096 Oct 4 19:13 etc 
drwxr-xr-x 2 root root 4096 Oct 4 14:39 include 
drwxr-xr-x 2 root root 4096 Oct 4 14:39 1ib 
drwxr-xr-x 3 root root 4096 Oct 4 14:39 share 


其 中 /opt/pgpool/bin 目 录 下 存放 pgpool 相 关 命 令 
脚本 ， 例 如 pgpool、pg_md5、pcp_attach_node 
等 ，/opt/pgpool/etc 目 录 和 存储 配置 文件 模板 ， 例 如 
pcp.conf.sample、pgpool.conf.sample-stream 等 配置 


文件 模板 。 


计划 以 root 操 作 系 统 用 户 进 行 pgpool 的 配置 ， 
并 且 将 软件 日 录 设 置 为 /opt/pgpool，pgpool 涉 及 的 
配置 工作 较 多 ， 下 面 逐 一 介绍 。 
1.pghost4、pghost5 广 点 配置 /etc/hosts 


两 节点 /etc/hosts 文 件 中 写 入 以 下 内 容 : 


192.168.26.57 pghost4 
192 ,168.26.58 pghost5 


2. 配 置 pghost4、pghost5 节 点 互信 〈 可 选 ) 





如 果 以 root 用 户 运 行 pgpool， 这 步 操作 可 省 
略 ， 如 果 以 普通 用 户 运 行 pgpool， 由 于 pgpool 故 障 
后 触发 failover_command 参 数 配 置 的 脚本 时 可 能 需 
要 ssh 到 远程 主机 ， 因 此 需要 配置 互信 。 


下 面 在 pghost4 和 pghost5 上 配置 postgres 操 作 系 
统 用 户 互 信 ， 首 先 在 pghost4 上 执行 以 下 操作 : 














# SU - postgres 
$ ssh-keygen 
$ ssh-copy-id postgres@pghosts5 


之 后 在 pghost4 主 机 上 测试 以 postgres 操 作 系 统 
账号 是 否 可 以 免 密码 ssh 到 pghost5， 如 下 所 示 : 





ssh postgresQ@pghost5 


以 上 测试 正常 后 ， 在 pghost5 上 也 做 同样 的 互信 
配置 。 


为 了 操作 方便 ， 本 章 内 容 将 以 root 运 行 
pgpool。 


3.pghost4、pghost5 节 点 配置 pool_ hba.conf 配 置 文件 


大 家 知道 PostgreSQL 提 供 了 
$PGDATA/g_hba.conf 文 件 ， 可 以 设置 应 用 连接 策 
略 ，pgpool 方 案 中 由 于 应 用 服务 器 不 是 直接 连接 到 
PostgreSQL 数 据 库 ， 而 是 先 连接 到 pgpool，pgpool 
再 连接 到 后 端 数据 库 ， 因 此 需要 在 pgpool 层 面 对 连 
接 进 行 策略 设置 ， 好 在 pgpool 支 持 这 一 功能 。 


从 模板 目录 中 复制 pool_hba.conf.sample 模 板 文 
件 ， 并 命名 为 pool_hba.conf， 如 下 所 示 : 


# cd /opt/pgpool/etc 
# cp pool hba.conf.sample pool hba.conf 


之 后 在 pool_hba.conf 文 件 中 加 入 以 下 内 容 ， 建 
议 后 端 PostgreSQL 数 据 库 的 pg_hba.conf 配 置 和 
pool_hba.conf 的 配置 一 致 ， 包 括 密 但 认证 方式 。 


host replication repuser 192.168.26.57/32 


host replication repuser 192.168.26.58/32 
host replication repuser 192.168.26.72/32 
host all all 0.0.0.0/0 md5 


4.pghost4、pghost5 节 点 配置 pool_passwd 配 置 文件 
如 果 pgpool 使 用 了 MD5 密 码 认 证 方式 ，pgpool 


需要 配置 pool passwd 密 码 配 置 文件 ，pool_passwd 
文件 格式 如 下 所 示 : 


username: encrypted_passwd 


此 文件 默认 情况 下 不 存在 ，pgpool 提 供 pg_md5 
命令 生成 并 配置 此 文件 ， 例 如 : 


# pg_md5 -u postgres -m postgres123 





pg_md5 命 令 表示 生成 指定 用 户 的 MD5 密 码 ， 
并 将 MD5 密 码 保 存在 pool_passwd 文 件 中 ， 如 下 所 
和 仆 : 


# Cat pool passwd 
postgres:md5163311300b0732b814a34aabfdfffe62 


三 


从 安全 角度 考虑 ， 以 上 内 容 暴 露 了 超级 用 户 
postgres 的 明文 密码 ， 也 可 以 通过 男 一 种 方式 配置 
pool_passwd 文 件 ， 如 下 所 示 : 


postgres=# SELECT rolpassword FROM pg_authid WHERE roJname= ' po 
rolpassword 


md5163311300b0732b814a34aabfdfffe62 
(1 row) 


之 后 将 postgres 用 户 名 和 以 上 MD5 密 人 码 写 入 
pool_passwd 文 件 ， 并 且 用 冒 亏 分 隔 。 


5.pghost4、pghost5 节 点 配置 pgpool.conf 配 置 文件 


首先 从 目录 /opt/pgpool/etc 中 获取 模板 ， 如 下 所 
No 


# cd /opt/pgpool/etc 
# cp pgpool.conf.sample-stream pgpool.conf 


pgpool.conf 参 数 配 置 很 多 ， 以 下 分 模块 介绍 主 
要 配置 参数 。 


pgpool 连 接 参 数 配置 如 下 : 


J]Jisten addresses = '*' 
port = 9999 


` listen_addresses: pgpool 监 听 设 置 ，* 表 示 监 
听 所 有 连接 。 


:botft=9999: pgpool 的 监听 端口 ， 默 认为 
9999。 


pgpool 后 端 PostgreSQL 市 点 配置 参数 如 下 所 
不 ， 配置 了 pghost4、 pghost5 两 个 节点 ， 后 端 数据 
库 市 点 编写 从 0 开始 ， 后 续 依 次 加 1。 








backend_hostname0 = 'pghost4' 

backend_portg0 = 1921 

backend_data directory0 = '/datai/pg10/pg_root' 
backend_flag0 = 'ALLOW_TO_FAILOVER' 
backend_hostname1 = 'pghosts5' 

backend_port1 = 1921 

backend_data_directory1 = '/datai/pg10/pg_root' 
backend_flag1 = 'ALLOW_ TO_FAILOVER' 


backend_hostname0: 配置 后 端 PostgreSQL 习 
点 0 的 主机 名 或 IP。 


backend_port0: 配置 PostereSQL 点 0 的 端 
衬 。 


backend_data_directory0: 配置 PostgreSQL 书 
点 0 的 数据 目录 。 


.backend_flag0: 设置 后 端 数据 库 节点 的 行 
为 ， 黑 认为 ALLOW_TO_FAILOVER， 允许 故 
障 转 移 。 


backend_hostname1: 配置 后 端 PostereSQL 闻 
点 1 的 主机 名 或 IP。 


backend_port1: 配置 PostereSQL 点 1 的 端 


backend_data_directory1: 配置 PostgreSQL 书 
点 1 的 数据 目录 。 


backend_flagl: 设置 后 端 数据 库 节 点 的 行 
为 ， 默 认为 ALLOW_TO_FAILOVER， 才 示 允许 故 
障 转 移 。 


pgpool 认 证 配置 如 下 所 示 : 


enable_pool_hba = on 
pool_passwd = 'pool_ passwd' 


enable_pool_hba: 表示 pgpool 启 用 
pool_hba.conf。 


. pool_passwd: 设置 MD5 认 证 的 锋 码 文件 ， 黑 


认为 pool_passwd。 
pgpool 日 志 配置 ，pid 文 件 配 置 如 下 所 示 : 


log_destination = 'syslog' 
pid_file name = '/opt/pgpool/pgpool.pid' 


` log_destination: pgpool 支 持 两 种 类 型 日 志 输 
出 ，stderr 和 syslog， 这 里 设置 成 
syslog，/vart/log/message 系 统 日 志 里 会 显示 pgpool 日 
下 


pid_file_name: pgpool 进 程 的 PID 文 件 。 


pgpool 负 和 载 均衡 配置 ， 如 下 所 示 : 


load balance mode = off 


load_balance_mode 表 示 是 否 开 启 pgpool 的 负载 
均衡 ， 如 果 开 启 此 参数 ，SELECT 语 句 会 被 pgpool 
分 发 到 流 复 制备 库 上 ， 这 里 不 开局 。 


pgpool 的 复制 模式 设置 和 流 复 制 检 测 配置 ， 如 
平 所 全 


# pgpool 复制 模式 配置 和 复制 检测 








master_SsJlave_mode = on 
master_slave_sub mode = ' Stream: 
sr_check_period = 10 
sr_check_user = 'repuser' 
sr_check_password = 're12a345' 
sr_check_database = 'postgres' 
delay_threshold = 10000000 





. master_slave_mode: 是 否 启 用 主 备 模式 ， 
认为 off， 设 置 成 on。 


. master_slave_sub_mode: 设置 主 备 模式 ， 可 
选项 为 slony 或 stteam，slony 表 示 使 用 slony 复 制 模 
式 ，stream 表 示 使 用 PostereSQL 内 置 的 流 复 制 模 
式 ， 这 里 设置 成 stream。 


` sf_check_period: 流 复 制 延 时 检测 的 周期 ， 
默认 为 10 秒 。 

. st_check_user: 流 复 制 延 时 检测 使 用 的 数据 
库 用 户 。 

. Sf_check database: 流 复 制 延 时 检测 时 连接 的 
数据 库 。 


delay_threshold: 当 流 复制 备 库 延迟 大 于 设置 
的 WAL 字 节 数 时 ，pgpool 不 会 将 SELECT 语句 分 发 
到 备 库 。 


pgpool 可 周期 性 地 连接 后 端 PostgreSQL 市 点 进 
行 健康 检测 ， 配 置 如 下 ， 分 别 表 示 检 测 的 周期 ( 秒 
单位 ) 、 检 测 的 超时 周期 〈 秒 为 单位 ) 、 检 测 的 数 
据 库 用 户 名 、 密 码 、 数 据 库 等 信息 。 








health_check_ period = 5 
health_check_ timeout = 20 


health_check_user = 'repuser' 
health_check_password = 're12a345' 
health_check_database = 'postgres' 


health check max_retries = 3 
health_check_retry _ delay = 3 


设置 故障 转移 脚本 ， 如 下 所 示 : 


failover_command = '/opt/pgpool/failover_stream.sh %d %P %H %F 


failover_command 表 示 设 置 故障 转移 的 脚本 ， 
当 pgpool 主 备 实例 或 主机 宕 机 时 ， 触 发 此 脚本 进行 
故障 转移 ， 后 面 四 个 参数 为 pgpool 系 统 变 量 ，%d 表 
示 宕 机 的 节点 ID，%P 表 示 老 的 主 库 节 点 ID，%H 表 
示 新 主 库 的 主机 名 ，%R 表 示 新 主 库 的 数据 目录 ， 
后 面 会 贴 出 failover_stream.sh 脚 本 中 的 内 容 。 


watchdog 配 置 参数 ， 如 下 所 示 : 


use_watchdog = on 
wd_hostname = 'pghost4' 


wd_port = 9000 
wd_priority = 1 


use_watchdog: 是 否 尼 用 watchdog， 默 认为 
off。 


` Wd_hostname: watchdog 所 在 主机 的 IP 地 址 或 
主机 名 ， 和 相应 pgpool 位 于 同一 主机 。 


` Wd_port: watchdog 的 端口 号 ， 上 默认 为 9000。 

` Wd_priotity: 设置 watchdog 的 优先 级 ， 当 
pgpool 主 节点 服务 通 断 后 ， 优 先 级 越 高 的 watchdog 
将 被 选择 成 pgpool 主 节点 ， 实 验 环境 为 一 主 一 备 ， 
只 有 两 个 pgpool 节 点 ， 此 参数 无 影响 。 


VIP 设置 相关 参数 ， 如 下 上 所 示 : 





delegate_IP '192.168.26.72' 

if_cmd_path '/sbin' 

if_up_cmd = 'ip addr add $_ IP_$/24 dev bondg label bond0 :1 
if_down_cmd = "ip addr del $ IP $/24 dev bondO' 


delegate_IP: 设置 pgpool 的 VIP，pgpool 主 万 
点 上 绑 定 这 个 VIP， 当 pgpool 主 节点 通 断 时 ， 优 先 
级 高 的 pgpool 备 节点 切换 成 pgpool 主 节点 并 接管 
VIP。 


` 让 cmd_bath: 设置 启动 和 关闭 VIP 命令 的 路 


.让 up_cmd: 设置 启动 VIP 的 命令 ， 使 用 ip 
addr add 命 令 尼 动 一 个 VIP， 由 于 pghost4、pghost5 使 
用 的 网 络 设备 名 称 为 bond0， 因 此 将 VIP 的 网 络 设备 
别名 设置 为 bond0: 1， 一 块 物理 网 卡 上 可 以 绑 定 多 
个 IP。 


` if_ down_cmd: 设置 关闭 VIP 的 命令 ， 使 用 ip 
addr del 命 令 。 


watchdog 心 跳 设置 参数 如 下 所 示 : 


heartbeat_destinationg = 'pghost5' # 设置 远程 pgpoo1l 节 点 主机 名 
heartbeat_destination_portg = 9694  # 设置 远程 pgpool1 节 点 端口 号 
heartbeat_device0 = 'bondO' 


heartbeat_destination0: 设置 远程 pogpool 节 点 
主机 名 或 IP， 本 地 的 watchdog 心 跳 发 往 远 程 pgpool 
主机 ，heartbeat_destination 后 的 编号 从 0 开始 。 


heartbeat_destination_port0: 设置 远程 popool 
节点 的 端口 号 ， 默 认为 9694。 


heartbeat_device0: 本 地 pgpool 发 送 watchdog 
心跳 的 网 络 设备 别名 ， 这 里 使 用 的 是 bond0。 


watchdog 存 活检 得 配置 参数 ， 如 下 所 示 : 





wd_life point = 3 
wd_lifecheck query = "SELECT 1' 


wd_lifecheck_dbname = 'postgres' 
wd_lifecheck _ user = 'repuser’ 
wd_lifecheck_password = 're12a345' 





wd_life_point: 当 探 测 pgpool 市 点 失败 后 设置 
重读 次 数 。 


. wd_lifecheck_query: 设置 pegpool 存 活检 测 的 
SQL。 


wd_lifecheck_dbname: 设置 pgpool 存 活检 测 
的 数据 库 。 


` wd_lifecheck_user: 设置 pgpool 存 活检 测 的 数 
据 库 用 户 名 。 


* wd_lifecheck_password: 设置 pegpool 存 活检 测 
的 数据 库 用 户 窗 码 。 


远程 pgpool 连 接 信息 设置 ， 如 下 所 示 : 





other_pgpool_hostname0 = 'pghost5'  # 设置 远程 pgpoo1 节 点 主机 名 或 
other_pgpool_port0 = 9999 # 设置 远程 pgpoo1 节 点 端口 号 
other_wd_portg0 = 9000 # 设置 远程 pgpool1 节 点 watchdc 





other_pgpool_hostname0: 设置 远程 pegpool 习 
点 的 主机 名 或 IP。 


other_pgpool_portt0: 设置 远程 pgpool 节 点 的 
端 口号 。 


other_wd_port0: 设置 远程 pgpool 节 点 的 
watchdog 端 口号 。 


以 上 是 pgpool.conf 配 置 文件 的 主要 参数 配置 ， 
关于 详细 的 参数 解释 和 其 他 参数 可 参考 pgpool 官 网 
手册 
http:/www.pgpool.net/docs/latest/en/html/runtime- 
config.html 。 


注意 pepool 备 节点 的 pgpoolconf 和 ppspool 
点 大 部 分 配置 一 致 ， 以 上 参数 中 带 # 的 参数 除 
、 0 点 的 这 些 参 数 设 置 需 调整 成 远程 
pspool 节 点 。 


/etc/pgpool-Il/failover_stream.sh 脚 本 代码 如 下 所 
人 \:; 


#! /bin/bash 

# Execute command by failover. 

# Special values: %d = node id 

# %h = host name 

# %p = port number 


%D 
%m 
%M 
%H 
%P 
%R 
%r 


%% 


亲 亲 亲 亲 亲 亲 亲 六 


falling_node=$1 
old_primary=$2 
new_primary=$3 
pgdata=$4 
pghome=/opt/pgsql 
lo0g=/tmp/failover.1og 
date >> $1og 








# 输出 变量 到 日 志 ， 方便 此 脚本 出 


database cluster path 


new 
old 


master node id 

master node id 

master node host name 
primary node id 

master database cluster path 
master port number 

character 


%d 
%P 
2%H 
%R 





现 异 常 时 调试 。 


echo "falling _ node=$falling_node" >> $10g 
echo "old_primary=$old_primary" >> $1lo0g 
echo "new_primary=$new primary" >> $10g 
echo "pgdata=$pgdata" >> $10g 





# 如 果 故 障 的 数据 库 为 主 库 并 且 执行 脚本 的 操作 系统 用 户 为 root 


if [ $falling_node 


= $0ld primary ] && [ $UID -eq 0 |]; then 
# 切换 动作 分 为 本 机 激活 备 库 或 远程 激活 备 库 ， 


以 $PGDATA 目 录 是 否 存在 recovery 


if [ -f $pgdata/recovery.conf ]; then 
su postgres -c "$pghome/bin/pg_ctl1 promote -D $pgdata" 
echo "Local promote" >> $10g 


else 
su postgres 


-C "ssh -T postgres@$new primary $pghome/b 


echo "Remote promote" >> $log 


fi 
fi; 
exit 0; 





以 上 脚本 六 致 和 pgpool 于 册 提供 的 模板 相同 ， 

主要 完善 了 两 部 分 内 容 ， 
日 志文 件 当 pgpool 进 行 主 备 切 换 异 第 时 方 
便 脚本 调试 ， 第 二 块 是 完善 了 切换 人 逻辑， 将 切换 动 


首先 增加 了 将 变量 输出 到 





作 分 为 本 机 切换 和 远程 切换 模式 ， 如 果 $PGDATA 
目录 下 存在 recovery.conf 文 件 ， 则 这 个 库 为 备 库 

(判断 逻辑 不 是 非常 严谨 ) ， 这 时 本 机 激活 备 库 即 
可 ， 在 下 一 小 节 时 将 进行 pgpool 切 换 测 试 ， 到 时 会 
用 到 这 个 脚本 ， 以 上 脚本 逻辑 适合 一 主 一 备 环境 。 


由 于 pgpool 程 序 会 调用 ip addr 命 令 给 指定 网 络 
设备 增加 或 删除 IP 地 址 ， 使 用 root 维 护 pgpool 程 序 方 
便 些 ， 给 root 用 户 配置 环境 变量 ， 增 加 以 下 内 容 : 








export PGPOOL_ HOME=/opt/pgpool 
export PATH=$PGPOOL_HOME/bin:$PATH:. 


之 后 在 pghost4 上 以 root 用 户 启 动 pgpool， 如 下 
所 示 : 


# pgpool 


启动 pgpool 只 需要 执行 pgpool 命 令 即 可 ， 
pgpool 可 指定 如 下 三 个 配置 文件 : 


-4，--hba-file: 指定 pogpool 的 hba 文 件 ， 默 认 
为 $prefix/etc/pool_hba.conf。 





 -f，--config-file: 指定 pgpool 的 配置 文件 ， 默 
认为 $prefix/etc/pegpool.conf。 


-下 ，--pcp-file: 指定 pgpool 的 pcp 配 置 文件 ， 
默认 为 $prefix/etc/pcp.conf。 


这 三 个 文件 都 放 在 默认 的 /opt/pgpool/etc 目 录 
下 ， 因 此 执行 pgpool 命 令 时 使 用 默认 配置 即 可 。 


如 果 调 整 了 pgpool.conf 的 配置 参数 ， 不 需要 重 
局 的 参数 可 执行 reload 操 作 使 配置 生效 ， 如 下 所 
人 小: 


# pgpool reload 
关闭 pgpool， 执 行 以 下 命令 : 
# pgpool -m fast stop 


pgpool 关 闭 有 三 种 可 选 模式 ， 分 别 是 smart、 
fast、immediate，smart 模 式 表 示 等 待 所 有 客户 问 连 
接 断 开 后 才 关 闭 pgpool，fast 和 immediate 模 式 无 明 
显 区 别 ， 表 示 立 即 关 闭 pgpool， 不 会 等 待 客 户 端 断 
开 连 接 ， 通 钊 使 用 fast 模 式 。 

查看 pghost4 的 系统 日 志 /var/log/messages， 如 


果 有 报错 信息 根据 报错 提示 进行 修复 ， 如 果 没 有 报 
错 ， 将 pghost 5 上 的 pgpooll 也 启动 ， 同 时 观察 





pghost5 上 的 /vavlog/messages 系 统 日 志 ， 如 果 没 有 
报错 ， 说 明 pgpool 部 署 工作 基本 完成 。 


过 VIP 连接 到 pgpool 查 看 状态 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
postgres=# Show pool nodes,; 


node_id | hostname | port | status | lb weight | role | 
人 ET 
0 | pghost4 | 1921 | up | -nan | primary | 0 
1 | pghost5 | 1921 | up | -nan | standby | 0 
(2 rows) 


注意 以 上 连接 的 是 pgpool， 端 口号 为 9999。 以 
上 内 容 显 示 了 pgpool 后 问 数 据 库 季 氮 信息 ，status 表 
示 节 点 状态 ，up 表 示 pgpool 后 端 节点 已 局 动 ，down 
表示 pgpool 后 端 节 点 没有 启动 ，role 字 段 表示 节点 
的 角色 ，Pprimary 表 示 主 库 ，standby 表 示 备 库 ， 
node_id 为 0 的 这 条 记录 表示 pghost4 上 的 主 节点 ， 
node_id 为 1 的 这 条 记录 表示 pghost5 上 的 备 节 点 。 








注意 0 
换 ， 有 兴趣 朋友 可 以 自行 测试 ， 比 如 主 库 关 闭 后 ， 
哪个 备 库 会 被 激活 。 


14.1.3” PCP 管理 接口 配置 


pgpool 提 供 一 个 用 于 营 理 pgpool 的 系统 层 命令 
行 工 具 ， 例 如 但 看 pgpool 市 点 信息 、 增 加 pgpool 市 
点 、 断 开 pgpool 节 点 等 。 


PCP 命 令 使 用 的 用 户 属 于 pgpool 层 面 ， 和 
PostgreSQL 数 据 库 中 的 用 户 没 有 关系 ， 但 pcp 命 令 
的 用 户 名 和 MD5 加 密 的 密码 必须 首先 在 pcp.conf 文 
件 中 定义 ，pcp.conf 文 件 格式 如 下 所 示 : 











# USERID :MD5PASSWD 


USERID 表 示 用 户 名 ，MD5PASSWD 表 示 加 密 
的 密码 ， 两 个 字段 用 冒号 分 隔 。 


计划 增加 一 个 名 为 pgpool 的 用 户 作 为 PCP 的 用 
户 名 ， 用 来 执行 PCP 人 命令， 密码 设置 成 pgpool， 使 
用 pg _md5 获 取 MD5 密 码 ， 如 下 所 示 : 





# pg_md5 pgpool 
ba777e4c2f15c11ea8ac3be7e0440aa0 


编写 pcp.conf 并 加 入 以 下 行 : 


# USERID:MD5PASSWD 
pgpool:ba777e4c2f15c11ea8ac3be7e0440aa0 





PCP 相 关 命 令 有 pcp_node_info、 
pcp_watchdog_info、 pcp_ | Hes, 例如 执行 
pcp_node_info 命 令 碍 看 节点 信息 ， 如 下 所 示 : 








$ pcp_node_info --verbose -h 192.168.26.72 -U pgpool 0 


Hostname : pghost4 
Port : 1921 
Status 2 
weight : nan 


Status Name: up 





以 上 显示 节点 编号 为 0 的 节点 信息 ，Status 字 段 
值 有 以 下 值 : 


. 0: 此 状态 仅 在 初始 化 时 出 现 ，PCP 命 令 不 会 


. 1: 节点 已 启动 ， 没 有 连接 。 
“ 人 有 连接 。 
A 节点 已 关闭 。 


另外 ，pcp_attach_node 命 令 在 后 面 小 节 的 高 可 
用 测试 时 会 用 到 。 


14.1.4 pgpoo] 方 案 高 可 用 测试 


表面 完成 了 pgpool 的 部 普 ， 忌 体 而 言 需 要 配置 
的 地 方 较 多 ， 但 并 不 复杂 ， 这 一 小 节 将 对 此 方案 的 
局 可 用 进行 测试 ， 分 三 个 场景 ， 如 下 所 示 : 


` 场景 一 : 测试 pgpool 程 序 的 高 可 用 ， 关 闭 
pgpool 主 节点 时 ,测试 是 否 能 实现 故障 转移 。 


` 场景 二 : 关闭 主 库 ， 测 试 备 库 是 否 激活 并 实 
现 故 障 转 移 。 


场景 三 : 关闭 主 库 主机 ， 测 试 备 库 是 否 激 活 
并 实现 故障 转移 。 


场景 一 : 测试 pgpool 程 序 的 高 可 用 ， 关 闭 
pgpool 主 节点 时 ， 测 试 是 否 能 实现 故障 转移 。 


pghost4 部 署 了 pgpool 主 节点 和 流 复制 主 库 ， 
pghost5 部 团 了 pgpool 备 节点 和 流 复 制备 库 ， 这 时 
VIP 在 pghost4 上 。 


使 用 pcp_watchdog_info 命 令 查看 pgpool 的 
watchdog 集 群 信 息 ，watchdog 是 pgpool 的 核心 组 
件 ， 两 者 的 主 备 关 系 是 一 致 的 ， 因 此 ， 可 通过 
watchdog 的 主 备 判断 pgpool 的 主 备 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ pcp_watchdogd_info --verbose -h 192.168 .2 
Password: 


Watchdog Cluster Information 


Total Nodes 4 
Remote Nodes | 
Quorum state : QUORUM EXIST 


Alive Remote Nodes 2 “二 

VIP up on local node : YES 

Master Node Name : pghost4:9999 Linux pghost4 
Master Host Name : pghost4 


watchdog Node Information 


Node Name : pghost4:9999 Linux pghost4 
Host Name : pghost4 

Delegate IP : 192.168.26.72 

Pgpool port : 9999 

Watchdog port  : 9000 

Node priority : 1 

Status : 4 

Status Name : MASTER 


Node Name : pghost5:9999 Linux pghost5 
Host Name : pghost5 

Delegate IP : 192.168.26.72 

Pgpool port : 9999 

Watchdog port  : 9000 

Node priority : 1 

Status :7 

Status Name : STANDBY 


以 上 显示 了 watchdog 集 群 信 息 ， 





pghost4 为 


watchdog 主 节点 ，pghost5 为 watchdog 的 备 节 点 ， 
pgpool 的 主 备 关系 和 watchdog 组 件 的 主 备 关系 一 
致 O 


查看 pghost4 上 的 IP 地 址 列表 ， 如 下 所 示 : 





[postgres@pghost4 ~]$ ip a 


12: bond0: <BROADCAST,MULTICAST,MASTER, UP, LOWER_UP> mtu 1500 0 


link/ether a0:36:9f:9b:07:af brd ff:ff:ff:ff:ff:ff 
inet 192.168.26.57/24 brd 192.168.26.255 scope global bond 
inet 192.168.26.72/24 scope global secondary bond0:1 





可 见 192.168.26.72 eos 说 
明 pghost4 为 pgpool 主 节点 。 


pghost4 上 停 掉 pgpool 主 节点 ， 如 下 所 示 : 





# pgpool -m fast stop 
.done. 





查看 pgpool 节 点 /vavlog/messages 系 统 日 志 ， 如 
下 所 未: 





Oct 12 10:09:39 pghost4 pgpool[41818]: [13-1] 2017-10-12 10:09 
Oct 12 10:09:39 pghost4 pgpool[41818]: [14-1] 2017-10-12 10:09 
Oct 12 10:09:39 pghost4 pgpoo1[26337]: [1-1] 2017-10-12 10:09: 
Oct 12 10:09:39 pghost4 pgpool: watchdog[41819]: [45-1] 2017-1 
Oct 12 10:09:39 pghost4 pgpool: watchdog de-escalation[26338]: 
Oct 12 10:09:39 pghost4 pgpool: watchdog de-escalation[26338]: 
Oct 12 10:09:39 pghost4 pgpool: watchdog de-escalation[26338 ] : 
Oct 12 10:09:41 pghost4 ntpd[6835]: Deleting interface #14 bon 





从 以 上 系统 日 志 中 看 出 ，pgpool 接 收 到 了 fast 模 
式 的 关闭 命 4 ， 随 后 关闭 了 连接 并 关闭 了 
watchdog， 最 后 执行 pgpool.conf 配 置 文件 的 
if_down_cmd 参 数 设 置 的 命令 关闭 了 VIP，Deleting 


interface 这 行 说 明 VIP 删 除 成 功 。 


pghost4 上 再 次 查看 IP 地 址 列表 ， 发 现 VIP 已 经 
不 存在 了 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ ip a 
12: bond0: <BROADCAST,MULTICAST,MASTER, UP, LOWER_UP> mtu 1500 0 


lJink/ether a0:36:9f:9b:07:af brd ff:ff:ff:ff:ff:ff 
inet 192.168.26.57/24 brd 192.168.26.255 scope global bond 


同时 查看 pghost5 的 IP 地 址 列表 ，VIP 已 经 绑 定 
在 pghost5 的 网 卡 bond0 上 了 。 

再 次 通过 pcp_watchdog_info 命 令 查 看 pgpool 状 
态 ， 发 现 pghost5 上 pgpool 节 点 状态 为 MASTER， 并 
且 pghost4 上 的 pgpool 状 态 为 SHUTDOWN。 








连接 pgpool 以 测试 是 否 能 正常 连接 ， 如 下 所 
修 \: 
[postgres@pghost4 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
Password for user postgres: 


psql (10.0) 
Type "help" for help. 


pgpool 连 接 正 常 ， 说 明 切 换 成 功 。 


这 个 时 候 读 者 可 能 有 个 疑问 ，pgpool 切 换 是 成 








功 了 ，PostgreSQL 数 据 库 是 人 否 会 做 主 备 切换 呢 ? 通 
过 验证 ，pghost4 依 然 是 主 库 ，pghost5 为 备 库 ， 也 
天 是 说 ， 单 独 的 pgpool 程 序 故 障 切换 不 会 触发 数据 
库 主 备 切换 (pgpool 主 节点 所 在 主机 宕 机 情况 除 
外 ， 后 面 会 测试 这 种 场景 ) 。 


场景 二 : 关闭 流 复 制 主 库 ， 测 试 是 否 能 实现 故 
障 转 移 。 


将 测试 环境 恢复 成 初始 环境 ，pghost4 为 pgpool 
主 太 点 并 部 团 了 流 复 制 主 库 ，pghost5 为 pgpool 备 节 
点 并 部 署 了 流 复 制备 库 ， 这 时 VIP 在 pghost4 上 。 


连接 pgpool 得 看 后 > 骨节 点 初始 信息 ， 如 下 所 








修 \: 


[postgres@pghost4 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
postgres=# Show pool nodes,; 


node_id | On | WA | 0 | 2 _weight \ role | 

0 "| i | on | 机 | -nan | a | 0 

1 | pghost5 | 1921 | up | -nan | standby | 0 
(2 rows) 


pghost4 上 关闭 主 库 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ pg_ctl1 stop -m fast 
waiting for server to shut down.... done 
server stopped 


主 库 关闭 后 ， 会 触发 pgpool 主 节点 执行 
pgpool.conf 配 置 文件 的 failover_command 命 令 以 执 
行 /opt/pgpool/failover_stream.sh 肢 本， 这 个 脚本 的 
执行 日 志 为 /tmp/failover.log， 此 日 志文 件 中 包含 以 
下 日 志 信 息 : 


Thu Oct 12 11:01:50 CST 2017 
falling_node=0 

old_primary=0 
new_primary=pghost5 
pgdata=/data1i/pg1i10/pg_root 
Remote promote 





falling_node 表 示 故 障 PostgreSQL 数 据 库 编 号 ， 
old_primary 表 示 老 的 主 库 编号 ，new_primary 表 示 新 
的 主 库 主机 名 ，pgdata 表 示 新 主 库 数 据 目 录 。 


pghost5 上 查看 数据 库 状态 ， 如 下 所 示 : 








[postgres@pghost5 ~]$ pg_controldata | grep cluster 
Database cluster state: in production 


这 时 pghost5 上 的 备 库 已 成 功 激活 成 主 库 ， 碍 看 
pghost5 上 数据 库 日 志 ， 显 示 备 库 已 成 功 激活 。 


再 次 得 看 pgpool 后 站 数据 库 贡 点 信息 ， 如 下 所 








ae 


修 : 


[postgres@pghost4 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
postgres=# Show pool nodes,; 


node_id | hostname | port | status | lb weight | os | 
i wT 

0 | pghost4 | 1921 | down | -nan | standby | 0 

1 | pghost5 | 1921 | up | -nan | primary | 0 
(2 rows) 


发 现 pghost4 上 的 库 状 态 为 down 并 且 数 据 库 角 
色 为 standby，pghost5 上 的 数据 库 状 态 为 up 并 且 数 据 
库 角 色 为 primary。 


这 时 验证 pgpool 状 态 ， 发 现 pgpool 状 态 依 然 为 
初始 状态 ， 没 有 做 主 备 切 换 ， 也 了 怠 是 说 ， 单 独 的 数 
据 库 故障 切换 不 会 触发 pgpool 主 备 切 换 

(PostgreSQL 主 库 所 在 主机 宕 机 情况 除外 ， 后 面 会 
测试 这 种 场景 ) 


场景 三 : 关闭 主 库 主 机 ， 测 试 是 否 能 实现 故障 
转移 。 


将 环境 恢复 成 初始 环境 ，pghost4 为 pgpool 主 节 
点 并 部 普 了 流 复 制 主 库 ，pghost5 为 pgpool 备 节点 并 
部 署 了 流 复 制备 库 ， 这 时 VIP 在 pghost4 上 。 


重启 pghost4 主 机 ， 由 于 pghost4 上 部 团 了 pgpool 
主 节 点 和 流 复 制 主 库 ， 之 后 需要 验证 pghost5 上 的 
pgpool 和 流 复 制备 库 是 否 激活 ， 重 局 命令 如 下 所 





和 仆 : 


[root@pghost4 pgpooll]# reboot 


查看 pghost5 上 的 /tmp/failover.log 日 志 ， 如 下 所 
人 人、\:; 


Thu Oct 12 11:43:13 CST 2017 
falling_node=0 

old_primary=0 
new_primary=pghost5 
pgdata=/data1i/pg1i0/pg_root 
Local promote 


从 日 志 看 出 ， 当 关闭 pghostq 时 ， 触 及 了 
pghost5 主 机 执行 /etcpgpool-IUfailover_stream.sh 切 
换 脚 本 。 


pghost5 上 查看 数据 库 状态 ， 发 现 已 经 切换 成 了 
主 库 ， 如 下 所 示 : 





[postgres@pghost5 ~]$ pg_controldata | grep cluster 
Database cluster state: in production 





但 看 pghost5 上 数据 库 日 志 ， 显 示 备 库 已 成 功 激 
活 。 


租 看 pgpool 后 端 节 点 信息 ， 如 下 所 示 : 





[postgres@pghost5 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
postgres=# Show pool_nodes; 


node_id | hostname | port | status | lb weight | role | 
i 中 

0 | pghost4 | 1921 | down | -nan | Stan 

1 | pghost5 | 1921 | up | -nan | prir 
(2 rows) 





以 上 显示 phost4 上 的 库 状态 为 down 并 且 数 据 库 
角色 为 standby，pghost5 上 的 数据 库 状 态 为 up 并 且 数 
据 库 角 色 为 primary。 


i 以 得 
看 pgpoo] 征 售 切 换 为 主 ， 日 志 如 下 : 





Oct 12 11:43:15 pghost5 ntpd[6835]: Listen normally on 9 bondc 
Oct 12 11:43:17 pghost5 pgpool: watchdog escalation[44067]: [1 
Oct 12 11:43:17 pghost5 pgpool: watchdog escalation[44067]: [1 
Oct 12 11:43:17 pghost5 pgpool: watchdog[42054]: [145-1] 2017 - 





以 上 日 志 显 示 执 行 了 pgpool.conf 配 置 文 件 中 
if up_ i 从 而 获取 到 了 VIP， 也 
可 以 通过 ip addr 命 令 再 次 验证 ， 如 下 上 所 示 : 





[postgres@pghost5 ~]$ ip a 


12: bond0: <BROADCAST,MULTICAST,MASTER, UP, LOWER UP> mtu 1500 oa 
link/ether a0:36:9f:9d:c7:5f brd ff:ff:ff:ff:ff:ff 
inet 192.168.26.58/24 brd 192.168.26.255 scope global bond 
inet 192.168.26.72/24 scope global secondary bond0:1 


可 见 ，VIP 己 飘移 到 pghost5 主 机 ， 由 此 可 见 场 
景 三 切换 成 功 。 


天 于 数据 库 主 备 切 换 后 的 恢复 可 参考 12.5 节 。 
根据 以 上 三 个 局 可 用 测试 场景 ， 可 以 得 出 如 下 


结论 : 





单独 的 pgpool 主 备 切换 不 会 触发 数据 库 的 主 
备 切换 (pgpool 主 节点 所 在 主机 宕 机 情况 除外 ) 。 


` 单独 的 PostereSQL 数 据 库 主 备 切 换 不 会 触发 
pgpool 主 备 切 换 (PostgreSQL 主 库 所 在 主机 宕 机 情 
况 除 外 ) O 


. 当 流 复制 主 库 所 在 主机 宕 机 时 ， pgpool 和 
PostgreSQL 两 者 都 触发 主 备 切换 ， 并 且 pgpool 的 VIP 
飘移 到 pgpool 备 节点 。 


从 以 上 测试 看 出 pgpool 主 节点 可 以 位 于 主 库 主 
机 上 ， 也 可 以 位 于 备 库 主机 上 。 








到 注意 大 家 知道 异步 流 复制 的 备 库 和 主 库 
存在 数据 延迟 ， 当 生产 库 故 障 激活 备 库 前 ， 建 议 对 
备 库 的 数据 进行 延迟 检测 ，pgpool 官 网 的 故障 切换 
脚本 failovet_stteam.sh 中 没有 进行 主 备 数据 延迟 检 
查 ， 有 兴趣 的 朋友 可 以 把 这 块 还 辑 加 上 。 本 章节 后 
面 介 绍 的 Keepalived 二 + 异步 流 复制 高 可 用 方案 中 的 主 
备 切 换 逻 辑 将 包含 主 备 数据 延迟 检测 。 


14.1.5 pgpoo] 方 案 和 常见 错 误 处 理 


恕 体 来 说 ，pgpool 高 可 用 方案 部 署 涉 及 的 配置 
文件 多 ， 配 置 过 程 中 出 现 错误 很 正常 ， 这 一 小 节 总 
结 了 pgpool 部 车 和 使 用 过 程 中 的 和 常见 错误 。 


埋 误 一 : 连接 pgpool 失 败 ， 报 pool_passwd 文 件 
没有 用 户 信 息 。 


[postgres@pghost4 ~]$ psql -h 192.168.26.72 -p 9999 postgres r 
psql: FATAL: md5 authentication failed 
DETAIL: pool passwd file does not contain an entry for "pguse 


如 果 启 用 了 pgpool 的 enable_pool_hba 参 数 ， 
pgpool 将 启用 pool_hba.conf 文 件 进行 认证 ， 如 果 
pool_hba.conf 配 置 文件 使 用 了 md5 认 证 方式 ， 需 要 
在 pool_passwd 文 件 进 行 用 户 信 息 注 册 ，14.1.2 小 市 


中 介绍 了 pool_passwd 文 件 的 配置 ， a 百 
忆 写 入 pool passwd 文 件 中 可 解决 此 问题 ， 如 下 所 


人 小: 


repuser :md54f87427f75b5a59ba0abffe11a6f79a8 


因此 ， 乔 权 连 失 pgDool 的 所 有 数据 库 用 户 都 需 
要 在 此 文件 写 入 用 户 信息 。 


埋 误 二 : 执行 pcp 相 关 命 令 时 认证 不 通 
间 误 信息 如 下 所 示 : 


[postgres@pghost5 ~]$ pcp_node info -h 192.168.26.72 -U pgpool 


Password: 
FATAL: authentication failed for user "pgpool" 
DETAIL: Username and/or password does not match 


14.1.3 小 节 中 介绍 了 pcp 相 关 命 令 和 pcp.conf 文 
件 配置 ， 出 现 以 上 错误 有 两 种 原因 ， 一 种 是 
pcp.conf 文 件 中 没有 配置 用 户 信息 ， 另 一 种 情况 是 
输入 了 错误 的 密码 ，pcp.conf 文 件 的 格式 如 下 所 
不 : 


# USERID:MD5PASSWD 
pgpool:ba777e4c2f1i5ci1iea8ac3be7e0440aa0 


音 误 三 : 关闭 pgpool 主 节点 时 VIP 不 会 切换 到 
pgpool 备 节点 。 


pgpool 程 序 VIP 的 切换 是 通过 pgpool.conf 配 置 文 
件 f_up_cmd 和 if_down_cmd 参 数 设 置 的 脚本 来 控制 
VIP 的 开局 和 关闭 ， 如 下 所 示 : 


if_up_cmd = 'ip addr add $_ IP_$/24 dev bondg0 label bond0 :1 
if_down_cmd = "ip addr del $_ IP $/24 dev bondO' 


注意 以 上 需要 调整 网 络 设备 名 称 ， 本 机 使 用 的 
网 络 设备 为 bond0， 因 此 将 VIP 的 网 络 设备 命名 为 
bond0: 1。 


当 关 闭 pgpool 主 节点 时 ， 如 果 VIP 没 有 切换 到 
pgpool 备 节点 ， 这 时 观察 pgpool 两 个 节点 的 系统 日 
志 ， 日 志 中 会 提示 if_up_cmd 和 if_down_cmd 命 令 是 
否 执行 成 功 ， 如 果 日 志 中 显示 这 两 个 命令 不 成 功 ， 
手工 测试 ip addr add、ip addr del 命 令 ， 如 下 所 示 : 





$ ip addr add 192.168.26.72/24 dev bond0 label bond0:1 
$ ip addr del 192.168.26.72/24 dev bond0:1 


通常 这 两 条 命令 执行 失败 是 因为 配置 的 两 条 ip 
addr 命 令 有 问题 ， 如 果 以 上 两 条 命令 手工 测试 通 
过 ，if_up_cmd 和 if_down_cmd 命 令 几 平 不 会 出 错 。 





错误 四 : 关闭 主 库 时 ， 备 库 没 有 被 激活 成 主 
Ee 


当 关 闭 流 复制 主 库 时 ， 理 论 上 pgpool 会 触发 
pgpool.conf 配 置 文件 中 failover_command 命 令 配 置 
的 /opt/pgpool/failover_stream.sh%d%P%H%R' 脚 本 
来 激活 备 库 ， 如 采 备 库 没 被 激活 主要 有 两 种 情况 ， 
第 一 种 情况 是 没有 触发 执行 这 个 脚本 ， 第 二 种 情况 
是 触 友 执行 了 此 脚本 ,但 没 触发 主 备 切换 。 


由 于 failover_stream.sh 主 备 切 换 脚 本 将 脚本 的 
运行 日 志 写 到 了 /tmp/failover.log 日 志文 件 中 ， 关 闭 
主 库 后 ， 可 观察 是 否 有 新 日 志 写 入 这 个 日 志 ， 从 而 
判断 是 人 否 执行 了 failover_stream.sh 脚 本 。 


如 果 此 脚本 执行 了 ， 但 发 现 备 库 没 有 被 激活 ， 
同样 需 观察 此 脚本 中 的 日 专 进 行 判断 ， 以 下 
是 /tmp/failover.log 一 个 切换 日 志 : 

















Thu Oct 12 11:21:20 CST 2017 
falling_node=1 

old_primary=1 
new_primary=pghost4 
pgdata=/data1i/pg1i10/pg_root 
Local promote 


根据 /failover_stream.sh 脚 本 代码 ， 只 有 妆 
falling_node 值 等 于 old_primary 值 时 〈 和 意思 是 主 库 故 





障 ) 才 会 触发 PostgreSQL 库 主 备 切 换 ， 如 果 这 两 个 
值 不 相等 则 不 会 触发 主 备 切换 。 


音 误 五 : PostgreSQL 数 据 库 关闭 后 需要 执行 
pcp_attach_node 命 令 让 数据 库 重 新 对 接 pgpool。 


pgpool 初 始 节点 信息 如 下 所 示 : 


postgres=# Show pool nodes,; 


node_id | hostname | port | status lb weight | role 
十 


i 丰富 
0 | pghost4 | 1921 | up | -nan | primary 
1 | pghost5 | 1921 | up | -nan | standby 
(2 rows) 


将 pghost5 上 的 备 库 关闭 ， 如 下 所 示 : 


[postgres@pghost5 ~]$ pg_ctl1 stop -m fast 
waiting for server to shut down.... done 
server stopped 


之 后 再 次 连接 pgpool 执 行 show pool_nodes 命 令 
查看 节点 信息 ， 显 示 pghost5 上 节点 状态 为 down， 
启动 pghost5 上 的 数据 库 ， 如 下 所 示 : 





[postgres@pghost5 ~]$ pg_ctl start 


再 次 得 看 pgool 节 点 信息 ， 如 下 所 示 : 


postgres=# Show pool nodes,; 


node_id | hostname | port | status | lb weight | role | 
站 Rs 

0 | pghost4 | 1921 | up | -nan | primary | 

1 | pghost5 | 1921 | down | -nan | standby | 
(2 rows) 


pghost5 上 节点 状态 依然 为 lown， 这 时 需要 执 
行 pcp_attach_node 命 令 将 PostgreSQL 数 据 库 重新 和 
pgpool 对 接 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ pcp_attach node -h 192.168.26.72 -U pgpc 
Password: 
pcp_attach_ node -- Command Successful 


pcp_attach_node 命 令 语 法 如 下 所 示 : 


pcp_attach_node [options...] [node_ id] 


node_id 指 PostgreSQL 数 据 库 编写 ，pghost4 上 
数据 库 编写 为 0，pghost5 上 数据 库 编 写 为 1， 这 里 将 
pghost5 上 的 数据 库 重 新 对 接 pgpool。 


再 次 连接 pgpool 执 行 show pool_nodes 命 令 查 看 
节点 信息 ， 显 示 pghost5 上 节点 状态 为 up。 





14.2 ”基于 Keepalived+ 异 步 流 复制 实现 高 可 
用 


上 一 小 节 介 绍 了 基于 pgpool 和 PostgreSQL 有 异步 
流 复 制 实现 的 高 可 用 方案 ， 这 一 小 节 将 介绍 基于 
Keepalived 和 和 异步 流 复 制 的 高 可 用 方案 ， 这 一 方案 
中 Keepalived 程 序 主 要 用 来 探测 PostgreSQL 主 库 是 
否 存活 ， 如 果 Keepalived 主 节点 或 主 库 故 障 ， 
Keepalived 备 节点 将 接管 VIP 并 且 激 活 流 复 制备 库 ， 
从 而 实现 高 可 用 。 


此 方案 部 普 前 握 条 件 如 下 : 


` 使 用 两 人 台 物 理 机 并 提前 部 署 好 了 PostgreSQL 
异步 流 复制 O 


. 两 台 物 理 机 配备 远程 管理 卡 ， 数 据 库 故障 转 
移 时 需 通过 远程 管理 卡 管 理 设备 。 


本 方案 基于 PostgreSQL10， 测 试 环 境 详 见 表 14- 


NJ 
O 


表 14-2 Keepalived+ 异 步 流 复制 实验 环境 


主 机 名 


pghost4 


pghost5 


组 
192.168.26.57 PostgreSQL10 
备 库 


192.168.26.72 
| ees | peesQr 
Keepalived 备 192.168.26.58 Keepalived-1.3.7 





14.2.1 ”Keepalived+ 异 步 流 复制 部 署 架 构图 


Keepalived+ 寞 步 流 复制 方案 物理 部 车 如 图 14- 


2。 


应 用 应 用 应 用 
服务 各 服务 天 服务 毅 










Keeppalived 主 | Keeppalived 备 
= 异步 流 复制 


pghost4 pghosts 


图 14-2 ”Keepalived+ 异 步 流 复制 部 团 架 构图 


Keepalived 主 节点 和 流 复 制 主 库 部 署 在 pghost4 
主机 上 ，Keepalived 备 节点 和 流 复制 备 库 部 署 在 
pghost5 主 机 上 ， 以 上 是 此 方案 的 初始 环境 ， 当 发 生 
故障 转移 时 以 上 组 件 角色 会 发 生 切 换 。 


此 方案 中 Keepalived 主 要 监控 流 复 制 主 库 、 备 
库 是 否 存 活 ， 如 果 主 库 故障 将 进行 故障 转移 ， 当 











然 ，Keepalived 程 序 自身 也 能 做 到 高 可 用 ， 当 
Keepalived 主 市 点 宕 挥 时 ，VIP 能 切换 到 Keepalived 
备 们 所。 


14.2.2 ”Keepalived+ 寞 步 流 复制 高 可 用 方案 部 著 


此 方案 部 绪 过 程 中 涉及 的 配置 调整 较 多 ， 主 要 
分 为 以 下 几 个 步 又: 


1) 异步 流 复制 环境 部 普 。pghost4 部 闭 异 步 流 
复制 主 库 ，pghost5 上 部 车 寞 步 流 复 制备 库 ， 并 确保 
流 复 制 主 备 工 作 正 常 。 


2) Keepalived 数 据 库 配置 。 创 建 数据 库 
Keepalived， 并 有 旦 创建 表 sr_delay， 后 续 Keepalived 
每 探测 一 次 会 刷新 这 张 表 的 last_alive 字 段 为 当前 探 
测 时 间 ， 这 张 表 用 来 判断 主 备 延迟 ， 数 据 库 故 障 切 
换 时 会 用 到 这 张 表 。 数 据 库 配 置 如 下 所 示 : 








postgres=# CREATE ROLE keepalived NOSUPERUSER NOCREATEDB 
login ENCRYPTED PASSWORD 'keeplaived'; 
CREATE ROLE 
postgres=# CREATE DATABASE keepalived 
WITH OWNER=keepalived 
TEMPLATE=TEMPLATEO 
ENCODING= 'UTF8 ' ， 
CREATE DATABASE 


postgres=# \c keepalived keepalived 
keepalived=> CREATE TABLE sr_delay(id int4,1last alive timestan 


CREATE TABLE 





表 sr_delay 只 允许 写 入 一 条 记录 ， 并 且 不 允许 
删除 此 表 数 据 ， 通 过 触发 器 实现 。 创 建 触发 器 函 
数 ， 如 下 所 示 : 





CREATE FUNCTION cannt_delete () 
RETURNS trigger 

LANGUAGE plpgsql] AS $$ 

BEGIN 

RAISE EXCEPTION 'You can not delete!'; 
END; $$; 





创建 cannt_delete 和 cannt_truncate 触 发 髓 ， 如 下 
所 示 : 





keepalived=> CREATE TRIGGER cannt_delete BEFORE DELETE ON sr_d 
FOR EACH ROW EXECUTE PROCEDURE cannt_delete(); 

CREATE TRIGGER 

keepalived=> CREATE TRIGGER cannt_truncate BEFORE TRUNCATE ON 
FOR STATEMENT EXECUTE PROCEDURE cannt_delete(); 

CREATE TRIGGER 





sr_delay 表 插入 初始 数据 ， 如 下 所 示 : 





keepalived=> INSERT INTO sr_delay VALUES(1,now()); 
INSERT © 1 





由 于 后 续 Keepalived 会 每 隔 指 定时 间 探 测 


PostgreSQL 数 据 库存 活 ， 并 且 以 Keepalived 用 户 登 
录 Keepalived 数 据 库 刷 新 这 张 表 ， 配 置 主 备 库 
pg_hba.conf， 增 加 如 下 内 容 : 


# keepalived 

host keepalived keepalived 192.168.26.57/32 md5 
host keepalived keepalived 192.168.26.58/32 md5 
host keepalived keepalived 192.168.26.72/32 md5 


之 后 执行 pg_ctl reload 操 作 使 配置 生效 。 
3) pghost4 和 pghost 部 车 Keepalived 程 序 。 


下 载 Keepalived 最 新 版 程序 ， 下 载 地 址 
为 http://www.keepalived.org/software/keepalived- 
1.3.7.tar.gz 。 


安 儿 系统 依 顿 包 ， 如 下 所 示 : 


# yum install openssl openssl-devel popt popt-devel 


pghost4 和 pghost 解 压 并 编译 安装 Keepalived， 
如 下 所 未: 


# tar xvf keepalived-1.3.7.tar.gz 

# ./configure --prefix=/usr/local/keepalived 
# make 

# make install 


将 Keepalived 配 置 成 服务 ， 方 便 管理 ， 如 下 所 


一 < 


修 : 


# ln -s /usr/local/keepalived/sbin/keepalived /usr/sbin/ 
# cp /opt/soft_bak/keepalived-1.3.7/keepalived/etc/init.d/keer 
# cp /usr/local/keepalived/etc/sysconfig/keepalived /etc/syscc 


以 上 将 可 执行 文件 做 成 软 链接 ， 并 从 压缩 包 中 
将 Keepalived 服 务 文件 复制 到 /etcwinit.d 1 录 ， 之 后 
测试 服务 配置 是 否 成 功 ， 执 行 以 下 命令 : 


# service keepalived status 
keepalived is stopped 


由 此 说 明 Keepalived 服 务 配 置 成 功 ， 将 
Keepalived 服 务 加 入 开机 目 司 动 ， 如 下 所 示 : 


# chkconfig keepalived on 


14.2.3 ”Keepalived 配 置 


上 一 小 节 完 成 了 Keepalived 的 安装 和 初始 环境 
准备 ， 接 下 来 配置 Keepalived。 


创建 Keepalived 配 置 目 录 ， 如 下 所 示 : 





# mkdir -p /etc/keepalived 





创建 /etc/keepalived/keepalived.conf 配 置 文件 ， 
新 增 以 下 内 容 : 





! Configuration File for keepalived 


global defs { 
notification email { 
francs3@163.com 
} 
smtp_server 127.0.0.1 
smtp_connect_timeout 30 
router_id DB1_PG_HA 


} 


vrrp_script check_ pg_alived { 
Script "/usr/local/bin/pg_monitor.sh" 
interval 10 
fall 3 # require 3 failures for KO 


. 


vrrp_instance VI_1 1{ 

state BACKUP 

nopreempt 

interface bond0 

virtual router_id 10 

priority 100 

advert_int 1 

authentication { 
auth_type PASS 
auth_pass t9rveMPOZ9S1 


track_script { 
check_pg_alived 


virtual ipaddress { 
192.168.26.72 


smtp_alert 
notify_master /usr/local/bin/active_standby.sh 


以 上 是 Keepalived 主 节点 的 配置 ，Keepalived 备 
节点 的 priority 参 数 改 成 90， 其 余 参数 配置 一 样 。 以 
上 程序 主要 分 为 以 下 三 块 : 


-global_defs: 通知 模块 ， 定 义 邮件 列表 ， 当 
Keepalived 发 生 事 件 时 给 邮件 列表 发 邮件 通知 。 


“ Vrrp_script: 定义 本 机 检测 模块 ， 每 隔 10 秒 执 
行 检 测 脚 本 /usr/local/bin/pg_monitot.sh， 脚 本 内 容 
后 面 会 贴 出 ，fall 3 表示 检测 失败 时 重 试 三 次 。 


. vttp_instance: vrrp 实 例 定 义 模块 ， 定 义 了 实 
例 名 称 和 实例 路 由 ID， 实 例 的 状态 定义 为 backup 同 
时 设置 非 抢 占 模 式 nopreempt， 当 节点 启动 时 不 会 抢 
占 VIP; 备 节点 的 priority 需 设置 成 比 主 节点 低 ， 这 
样 两 人 台 主 机 启动 Keepalived 时 priotity 高 的 节点 为 
Keepalived 主 节点 ， 同 时 设置 了 Keepalived 的 VIP， 使 
用 的 网 络 设备 为 bond0。 


smtp_alert: 定义 了 notify_master 脚 本 ， 当 
Keepalived 角 色 从 备 转 换 成 主 时 触发 脚 


本 /usrt/local/bin/active_standby.sh， 脚 本 内 容 将 在 后 
面 贴 出 。 


江汉 


修 


/usr/local/bin/pg_monitor.sh 脚 本 内 容 如 下 所 





#1!/bin/bash 
# 配置 变量 
export PGPORT=1921 

export PGUSER=keepalived 

export PGDBNAME=keepalived 

export PGDATA=/datali/pg10/pg_root 

export LANG=en_US.utf8 

export PGHOME=/opt/pgsql 

export LD_LIBRARY_PATH=$PGHOME/1ib:/1ib64:/usr/1ib64:/usr/loca 
export PATH=$PGHOME/bin:$PGPOOL_HOME/bin:$PATH:. 




















MONITOR_LOG="/tmp/pg_monitor.1log" 

SQL1="UPDATE sr_delay SET last_ alive = now();" 

SQL2='SELECT 1;' 

# 此 脚本 不 检查 备 库 存活 状态 ， 如 果 是 备 库 则 退出 

standby_flg= psql -p $PGPORT -U postgres -At -c "SELECT pg_is_ 


If [ ${standby_flg} == 't' ]; then 
echo -e "date +%F\ %T : This is a standby database, exit! 
exit 0 

fi 


# 主 库 更 新 sr_delay 表 
echo $SQL1 | psql -At -p $PGPORT -U $PGUSER -d $PGDBNAME >> $k 


# 判断 主 库 是 否 可 用 

echo $SQL2 | psql -At -h -p $PGPORT -U $PGUSER -d $PGDBNAME 

if [ $? -eq 0 ]; then 
echo -e "date +%F\ %T : Primary db is health." >> $MONI 
exit 0 

else 
echo -e "date +%F\ %T : Attention: Primary db is not hea 
exit 1 

fi 


= 


此 脚本 每 隔 10 秒 执行 一 次 ， 执 行 频率 由 
keepalived.conf 配 置 文件 中 interval 参 数 设置 ， 脚 本 
主要 作用 为 : 


` 检测 主 库 是 否 存 活 。 


. 更 新 st_delay 表 ]ast_alive 字 段 为 当前 探测 时 
间 。 


当 Keepalived 进 程 检测 到 主 库 宕 机 时 触发 
Keepalived 进 行 主 备 切换 ，Keepalived 备 方 点 油 活 成 
主 节点 后 触发 notify_master 参 数 定义 
的 /usr/local/bin/active_standby.sh 脚 本 。 


/usr/local/bin/active_standby.sh 肢 本 处 理 逻 辑 如 
图 14-3 所 示 。 


主 备 切换 脚本 处 理 逻 辑 


进入 主 备 切换 主 备 切换 条 件 关闭 主 节 点 激活 备 库 


检测 是 否 满足 
主 备 切换 条 件 


主 备 切 换 成 功 ， 
退出 脚本 





图 14-3 主 备 切换 脚本 active_stadnby.sh 处 理 逻 辑 


从 以 上 逻辑 看 出 ，active_standby.sh 脚 本 进行 主 
备 切 换 的 条 件 为 : 


1) 当前 数据 库 为 备 库 ， 并 且 可 用 。 
2) 备 库 延迟 时 间 在 指定 范围 内 。 


满足 以 上 两 个 条 件 进 入 主 备 切换 ， 主 备 切换 的 
处 理 流程 为 : 





远程 管理 卡 关 财主 库 主 机 。 
2) 激活 备 库 。 
主 备 切 换 过 程 为 什么 要 先头 闭 老 的 主 库 主机 ? 
一 方面 避免 脑 裂 ， 男 一 方面 当 需 要 将 老 的 主 库 恢复 


成 备 库 时 ， 不 需要 重 做 备 库 ， 如 果 数 据 库 比 较 大 ， 
重 做 备 库 将 带 来 较 大 维护 时 间 开 销 。 


/usr/local/bin/active_standby.sh 脚 本 代码 如 下 所 








一 < 


外: 





#/bin/bash 
# 环境 变量 
export PGPORT=1921 

export PGUSER=keepalived 

export PG_0S_USER=postgres 

export PGDBNAME=keepalived 

export PGDATA=/data1i/pg10/pg_root 

export LANG=en_US.utf8 

export PGHOME=/opt/pgsql 

export LD_LIBRARY_PATH=$PGHOME/1ib:/1ib64:/usr/1ib64:/usr/1loca 
export PATH=/opt/pgbouncer/bin:$PGHOME/bin:$PGPOOL_ HOME/bin:$F 





# 设置 变量 ，LAG_MINUTES 指 允 许 的 主 备 延 迟 时间 ， 单 位 秒 
LAG_MINUTES=60 

HOST_IP= hostname -i 
NOTICE_EMAIL="francs3@163.com" 
FAILOVE_LOG='/tmp/pg_failover.1log' 





SQL1="SELECT 'this_is_ standby' AS cluster_role FROM ( SELECT E 
SQL2="SELECT 'standby_in allowed lag' AS cluster_lag FROM sr_d 























# 配置 对 端 远程 管理 卡 IP 地 址 、 用 户 名 、 密 码 
FENCE_IP=50.1.225.101 
FENCE_USER=root 














FENCE_PWD=XXXX 





# VIP 已 发 生 漂移 ， 记 录 到 日 志文 件 
echo -e ”date +%F\ %T : keepalived VIP switchover!" >> $FAILC 


# VIP 已 漂移 ， 邮 件 通知 
#echo -e "date +%F\ %T`; ${HOST_IP}/${PGPORT} VIP 发 生 漂 移 ， 需 # 


# pg_failover 函数 ， 当 主 库 故 障 时 激活 备 库 

pg_failLover() 

{ 

# FENCE_STATUS 表示 通过 远程 管理 卡 关 闭 主机 成 功 标 志 ，1 表示 失败 ，Q 表示 
# PROMOTE_STATUS 表示 激活 备 库 成 功 标 志 ，1 表示 失败 ，Q 表示 成 功 
FENCE_STATUS=1 

PROMOTE_ STATUS=1 















































# 激活 备 库 前 需 通过 远程 管理 卡 关闭 主 库 主 机 
for ((k=0;k<10;k++)) 
do 
# 使 用 ipmitool 命 令 连接 对 端 远 程 管理 卡 关 闭 主 机 ， 不 同 X86 设 备 命令 可 能 不 一 样 
ipmitool -I lanplus -L OPERATOR -H $FENCE_IP -U $FENCE_USE 
If [ $7? -eq 0 1]; then 
echo -e "” date +%F\ %T : fence primary db host success 
FENCE_STATUS=0 
break 
fi 
sleep 1 
done 












































if [ $FENCE_ STATUS -ne 0 ]; then 

echo -e ”date +%F\ %T : fence failed. Standby will not pr 
return $FENCE_STATUS 
fi 


# 激活 备 库 

SU - $PG_ 0S_USER -c "pg_ctl promote" 

if [ $? -eq © ]; then 
echo -e "” date +%F\ %T : ‘hostname promote standby succes 
PROMOTE_ STATUS=0 

fi 


if [ $PROMOTE_STATUS -ne 0 ]; then 
echo -e ”date +%F\ %T : promote standby failed." 
return $PROMOTE_STATUS 

fi 


echo -e "date +%F\ %T : pg_ failover() function call succe 
return 0 


# 故障 切换 过 程 

# 备 库 是 否 正 常 的 标记 ，STANDBY_CNT=1 表示 正常 ， 
STANDBY_CNT= `echo $SQL1 | psql -At -p $PGPORT -U $PGUSER -d $F 
echo -e "STANDBY_CNT: $STANDBY_CNT" >> $FAILOVE LOG 








if [ $STANDBY_CNT -ne 1 1]; then 
echo -e "” date +%F\ %T : ‘hostname ”is not standby databas 
exit 1 

fi 














# 备 库 延 迟 时 间 是 否 在 接受 范围 内 ， LAG=1 表示 备 库 延 迟 时 间 在 指定 范围 
LAG= `echo $SQL2 | psql -At -p $PGPORT -U $PGUSER -d $PGDBNAME 
echo -e "LAG: $LAG" >> $FAILOVE_LOG 


if [ $LAG -ne 1 1]; then 
echo -e "‘date +%F\ %T : ‘hostname is laged far $LAG MINL 
exit 1 

fi 





EH 


# 同时 满足 两 个 条 件 执行 主 备 切换 函数 : 1、 备 库 正 常 ，2、 备 库 延 迟 时 间 在 指定 范 
if [ $STANDBY_CNT -eq 1 ] && [ $LAG -eq 1 ]，then 
pg9_failover >> $FAILOVE_ LOG 
If [ $7? -ne 0 1]; then 
echo -e "” date +%F\ %T : pg_failover failed." >> $FAIL 
exit 1 








fi 
fi 





判断 是 否 执行 故障 切换 pg_failover 函 数 
1， 当 前 数据 库 为 备 库 ， 并 且 可 用 。 
2， 备 库 延 迟 时 间 在 指定 范围 内 


pg_failover 函 数 处 理 逻 辑 
1， 通 过 远程 管理 卡 关 闭 主 库 主机 
2， 激 活 备 库 
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以 上 脚本 备 库 只 需要 调整 FENCE _IP、 





FENCE _USER、FENCE PWD 三 个 变量 ， 配 置 成 对 
端 远程 管理 卡 信息 ， 其 余 代码 与 主 库 一 致 。 


给 脚本 加 上 可 执行 权限 ， 如 下 所 示 : 





# chmod 700 /usr/local/bin/pg_monitor.sh 
# chmod 700 /usr/local/bin/active_standby.sh 


地 注意 当 异 步 流 复制 主 库 故 障 时 ， 流 复制 
的 备 库 延迟 时 间 在 指定 范围 内 才 进 行 主 备 切换 ， 如 
果 备 库 延 迟 时 间 超出 指定 范围 不 进行 主 备 切换 ， 本 
例 设 置 的 主 备 允 许 的 延 论 时 间 为 60 秒 ， 以 上 主 备 切 
换 辑 读者 可 根据 生产 环境 情况 进行 完善 。 另 外 ， 
此 方案 运用 于 生产 环境 需要 调整 pg_monitof.sh 和 
active_standby.sh 脚 本 中 的 相关 配置 变量 。 


14.2.4 Keepalived 方 案 高 可 用 测试 

前 面 完成 了 Keepalived+ 腊 步 流 复 制 融 可 用 方案 
部 普 ， 这 一 小 市 对 此 方案 进行 融 可 用 测试 ， 分 三 个 
场景 进行 ， 如 下 所 示 : 


` 场景 一 : 关闭 Keepalived 主 节点 ， 测 试 
keepalived 备 节点 是 否 激 活 并 实现 故障 转移 。 


. 场景 二 : 关闭 主 库 ， 测 试 备 库 是 否 激活 并 实 
现 故 障 转移 。 


. 场景 三 : 关闭 主 库 主机 ， 测 试 备 库 是 否 激活 
并 实现 故障 转移 。 


场景 一 : 关闭 Keepalived 主 节点 ， 测 试 
Keepalived 备 节点 是 否 激活 并 实现 故障 转移 。 


pghost4 部 团 了 Keepalived 主 节点 和 流 复 制 主 
库 ，pghost5 部 署 了 Keepalived 备 节点 和 流 复 制备 
库 ，VIP 部 署 在 pghost4 上 。 


pghost4 上 关闭 Keepalived 主 节点 ， 模 拟 
Keepalived 故 障 ， 如 下 所 示 : 





[root@pghost4 ~]# ps -ef | grep keepalived | grep -v grep 


root 7527 1 0 10:31 ? 00:00:00 keepalived -D 
root 7528 7527 0 10:31 ? 00:00:00 keepalived -D 
root 7529 7527 0 10:31 ? 00:00:00 keepalived -D 


[root@pghost4 ~]# kill 7527 





pghost5 查 看 /var/log/messages 系 统 日 志 ， 如 下 
所 示 : 





Oct 16 11:00:55 pghost5 Keepalived_ vrrp[6561]: VRRP_Instance(v 
Oct 16 11:00:56 pghost5 Keepalived_vrrp[6561]: VRRP_Instance(v 
Oct 16 11:00:56 pghost5 Keepalived_vrrp[6561]: VRRP_Instance(v 


Oct 16 11:00:57 pghost5 ntpd[6917]: Listen normally on 6 bondc 
Oct 16 11:01:01 pghost5 Keepalived_vrrp[6561]: Sending gratuit 





从 以 上 看 出 pghost5 上 的 Keepalived 由 备 节 点 转 
换 成 主 节 点 ， 并 接管 了 VIP 192.168.26.72。 


pghost5 上 可 以 通过 ip addr 命 令 确 认 ， 如 下 上 所 
人 小 : 





[root@pghost5 ~]# ip addr 


12: bond0: <BROADCAST,MULTICAST,MASTER, UP, LOWER_ UP> mtu 1500 oa 
link/ether a0:36:9f:9d:c7:5f brd ff:ff:ff:ff:ff:ff 
inet 192.168.26.58/24 brd 192.168.26.255 scope global bond 
inet 192.168.26.72/32 scope global bondo0 





可 见 VIP 己 经 款 移 到 pghost5 主 机 上 。 


pghost5 上 得 看 日 志 /Mtmp/pg_failover.log， 这 个 
志 记 录 了 主 备 切换 脚本 active_standby.sh 的 执行 日 
如 下 所 示 : 





2017-10-16 11:00:56: keepalived VIP switchover! 
STANDBY_CNT: 1 

LAG: 1 

Chassis Power Control: Reset 

2017-10-16 11:00:56: fence primary db host success. 
waiting for Server to promote.... done 

Server promoted 

2017-10-16 11:00:56: pghost5 promote Standby success. 


2017-10-16 11:00:56: pg_failover() function call success. 


从 以 上 日 志 看 出 ，Keepalived 的 VIP 已 经 款 移 ， 
并 且 远 程 关闭 了 老 的 主 库 主 机 ，pghost5 上 的 备 库 激 
活 成 功 。 同 时 发 现 pghost4 主 机 已 经 被 关闭 。 


但 看 pghost5 上 数据 库 状态 ， 如 下 所 示 : 


[postgres@pghost5 pg_root]$ pg_controldata | grep cluster 
Database cluster state: in production 


可 见 pghost5 上 的 备 库 已 经 转换 成 了 主 库 ， 并 且 
观察 数据 库 日 志 ， 如 果 无 报错 ， 说 明 切 换 成 功 。 


场景 二 : 天 财主 库 ， 测 试 备 库 是 否 激 活 并 实现 
故障 转移 。 


将 测试 环境 恢复 成 初始 状态 ，pghost4 为 
Keepalived 主 节点 并 部 闭 了 流 复 制 主 库 ，pghost5 为 
Keepalived 备 节点 并 部 闭 了 流 复 制备 库 ， 这 时 VIP 在 
pghost4 上 ， 将 pghost4 恢 复 成 备 库 过 程 中 不 需要 重 
做 备 库 ， 只 需要 将 $jPGDATA 目 录 下 的 recovery.done 
修改 成 recovery.conf 并 启动 数据 库 即 可 。 


天 于 数据 库 主 备 切 换 后 的 恢复 可 参考 12.5 节 。 











接 下 来 关闭 主 库 模 拟 主 库 故障 ， 测 试 是 否 能 实 


现 故 障 转 移 。 


pghost4 天 闭 主 亩 ， 如 下 所 示 : 


[postgres@pghost4 ~]$ pg_ctl1 stop -m fast 
waiting for server to shut down.... done 
server stopped 





pghost4 上 这 时 还 能 得 系统 日 过， 发 现 如 下 信 


Oct 
Oct 
Oct 
Oct 
Oct 
Oct 


16 
16 
16 
16 
16 
16 


11: 
11: 
11: 
11: 
11: 
11: 


20 : 
20 : 
20 : 
20 : 
20 : 
20 : 


35 
35 
35 
35 
35 
36 


pghost4 
pghost4 
pghost4 
pghost4 
pghost4 
pghost4 


Keepalived_vrrp[7436]: /usr/local/bin/ 
Keepalived_vrrp[7436]: VRRP_Script(che 
Keepalived_vrrp[7436]: VRRP_Instance(Vv 
Keepalived_vrrp[7436]: VRRP_Instance(V 
Keepalived_vrrp[7436]: VRRP_Instance(V 
ntpd[6888]: Deleting interface #6 bond 





以 上 日 志 显 示 check_pg_alived 检 测 失 败 ， 


Keepalived 发 生 故 障 ， 并 且 VIP 从 pghost4 的 bond0 设 
备 移 除 ， 过 了 一 会 儿 pghost4 主 机 被 关闭 (pghost5 
上 的 Keepalived 切 换 成 主 节点 后 会 触发 执行 
active_standby.sh 脚 本 ， 此 脚本 通过 远程 管理 卡 关 团 





多 肌 主 库 圭 宙 ) 。 
但 看 pghost5 系 统 日 志 ， 如 下 所 示 : 





Oct 16 11:20:38 pghost5 ntpd[6917]: Listen normally on 6 bondc 
Oct 16 11:20:41 pghost5 Keepalived_vrrp[6561]: Sending gratuit 
Oct 16 11:20:41 pghost5 Keepalived_vrrp[6561]: VRRP_Instance(v 





从 以 上 信息 看 出 pghost 5 上 的 Keepalived 由 备 节 
点 转换 成 主 节点 ， 并 接管 了 VIP 192.168.26.72。 


pghost5 上 查看 日 志 /tmp/pg_failover.log， 如 下 
所 示 : 





2017-10-16 11:20:36: keepalived VIP switchover! 
STANDBY_CNT: 1 

LAG: 1 

Chassis Power Control: Reset 

2017-10-16 11:20:37: fence primary db host success. 
waiting for server to promote.... done 

server promoted 

2017-10-16 11:20:37: pghost5 promote standby success. 
2017-10-16 11:20:37: pg_failover() function call success. 





从 以 上 日 志 看 出 ，Keepalived 的 VIP 已 经 款 移 ， 
并 且 远 程 关 闭 了 老 的 主 库 主 机 ，pghost5 上 的 备 库 激 
活 成 功 。 


在 pghost5 上 得 看 数据 库 状 态 ， 如 下 上 所 示 : 





[postgres@pghost5 pg_root]1$ pg_controldata | grep cluster 
Database cluster state: in production 





可 见 pghost5 上 的 数据 库 已 切换 成 主 库 ， 观 察 数 
据 库 日 志 ， 如 果 无 报错 ， 说 明 切 换 成 功 。 


场景 三 : 天 财主 库 主 机 ， 测 试 备 库 是 售 激 活 并 
实现 故障 转移 。 


场景 三 的 测试 与 场景 一 、 场 景 二 测试 步骤 基本 
一 致 ， 只 是 测试 过 程 中 需要 将 pghost5 主 库 主 机 关 
闭 ， 测 试 是 否 实现 故障 转移 。 在 测试 过 程 中 ， 我 们 
通过 ipmitool 的 power reset 命 令 模 拟 pghost5 异 党 宕 
机 ， 之 后 发 现 pghost4 上 的 Keepalived 成 功 切换 成 主 
节点 ， 并 且 pghost5 上 的 数据 库 成 功 激 活 成 主 库 ， 测 
试 过 程 与 场景 一 、 场 景 二 一 样 ， 这 里 不 再 演示 。 


根据 以 上 三 个 局 可 用 测试 场景 ， 可 以 得 出 以 下 


结论 : 

















` 单 Keepalived 主 节点 关闭 时 ，Keepalived 备 节 
点 被 激活 并 触发 PostereSQL 主 备 切 换 。 


* 当 关 闭 主 库 时 ，Keepalived 备 节点 被 激活 并 
触发 PostegreSQL 主 备 切 换 。 


* 当 关 闭 主 库 主机 时 ，Keepalived 备 节点 被 激 
活 并 触发 PostereSQL 主 备 切 换 。 


从 以 上 测试 可 以 看 出 Keepalived 主 节点 始终 和 


主 库 在 同一 台 主 机 上 “(异常 情况 除外 ， 比 如 主 备 切 
换 异 常 ) 。 而 pgpool+ 异 步 流 复制 方案 中 的 pgpool 主 
节点 可 以 位 于 主 库 主 机 ， 也 可 以 位 于 备 库 主 机 上 。 














1 玉生 


本 章 介 绍 了 两 种 高 可 用 方案 ， 一 种 是 基于 
pgpool 和 异步 流 复 制 的 高 可 用 方案 ， 一 种 是 基于 
Keepalived 和 于 步 流 复 制 的 高 可 用 方案 ，pgpoo] 功 
能 丰 军 ， 除 了 高 可 用 功能 外 ， 还 有 连接 池 、 人 负载 均 
衡 、 复 制 等 特性 ， 本 章 不 介绍 这 些 内 容 ， 有 兴趣 的 
读者 可 通过 pgpool 官 网 了 解 这 些 特 性 。pgpool 的 高 
可 用 方案 虽然 能 实现 故 隐 转移 ， 但 主 备 切 换 旬 辑 并 
不 严谨 ， 比 如 备 库 切换 成 主 库 前 没有 对 主 备 延迟 进 
行 判断， 读者 可 目 行 完善 这 块 功能 ，Keepalived 的 
高 可 用 方案 对 主 备 切换 包 辑 进行 了 完善 ， 比 如 激活 
备 库 前 首先 检测 备 库 状态 ， 并 计算 主 备 延 时 ， 只 有 
备 库 正 第 同时 主 备 延 时 在 指定 范围 内 才 触 发 主 备 切 
换 ， 激 活 备 库 前 会 先 通 过 远程 管理 卡 关 闭 老 的 主 库 
主机 ， 当 老 的 主 库 主 机 关闭 成 功 后 再 激活 备 库 。 


PostgreSQL 的 高 可 用 方案 还 有 其 他 可 选 方案 ， 
读者 可 码 陪 相关 资料 了 解 、 探 索 。 




















第 15 草 ”版 本 升级 


PostgreSQL 是 一 个 非常 活跃 的 社区 开源 项 目 ， 
版 本 运 代 速度 很 快 ， 每 一 次 的 版 本 更 新 都 会 积极 修 
复 旧版 本 的 BUG， 增 加 很 多 新 特性 ， 性 能 也 会 有 个 
同 幅 虚 的 提升 。 过 于 老 旧 的 软件 版 本 也 可 能 不 符合 
PostgreSQL 产 品 生命 周期 文 持 策略 ， 同 时 ， 硬件 老 
化 、 应 用 程序 需要 新 的 特性 以 及 业务 增长 ， 这 些 都 
是 推动 PostgreSQL 使 用 者 升级 的 理由 。 本 章 将 对 
PostgreSQL 近 几 年 友 行 的 省 个 版 本 新 增 和 加 强 的 特 
性 进行 简单 介绍 ， 并 将 详细 讲解 如 何 安 人 全、 可靠 地 
对 数据 库 进行 升级 ， 








15.1 版 本 介绍 


在 PostgreSQL 10 之 前 的 版 本 命名 由 三 部 分 组 
成 ， 其 中 第 一 位 和 第 二 位 合 称 为 主 版 本 号 ， 第 三 位 
为 子 版 本 号 ， 以 PostgreSQL 9.6.14 为 例 ，9.6 为 主 版 
本 ，14 为 这 个 主 版 本 的 子 版 本 。 从 2017 年 10 月 发 布 
的 PostgreSQL 10 开 始 ，PostgreSQL 全 球 开发 社区 修 
改 了 版 本 命名 策略 ， 版 本 号 命名 只 由 两 部 分 数字 组 
成 ， 例 如 10.0。PostgreSQL 社 区 每 年 会 发 布 一 个 包 
舍 新 特性 的 主 厂 本 ， 每 年 的 2 月 、5 月 、8 月 、11 月 
会 发 布 一 个 小 版 本 ， 当 有 BUG 修复 、 安 全 性 问题 时 
也 会 不 定期 发 行 小 版 本 。 


PostgreSQL 的 每 个 大 版 本 都 是 长 期 支持 版 本 
(Long-term support，LTS) ， 每 个 长 期 支持 版 本 
周期 为 5 年 。 在 长 期 支持 结束 之 后 ， 主 版 本 会 发 行 
J 并 在 此 之 后 俘 止 该 版 本 的 BUG 
多 必 。 


PostgreSQL 各 历史 版 本 的 特性 如 下 表 所 示 : 














3 


9.4 


955 


9.6 


10 





特 性 

窗口 函数 ， 列 级 权限 ,并行 数据 库 恢复 ， 公 用 表 表 达 式 和 递归 查询 

内 回流 复制 、 热 备 、 支 持 64 位 Windows 操作 系统 

同步 流 复制 ，UNLOGGED 表 ， 可 串 行 化 快照 隔离 ， 可 写 公 用 表 表 达 式 ， 
SELinux 集成 ， 外 部 扩展 ， 外 部 表 

级 联 流 复制 ， 只 用 索引 的 扫描 ， 原 生 json 支持 ， 范 围 类 型 ，pg_receivexlog 
[有 具 ，Space-Partitioned GiST 索引 

自 定义 后 台 工 作 进程 ， 数 据 校 验 ， 专 用 JSON 运算 符 ,，LATERAL JOIN ， 
更 快 的 pg_dump ,pg_isready 服务 费 监 控 工 具 ， 触 发 天， 视图 ， 可 写 外 部 表 ， 
物化 视图 

JSONB 数据 类 型 ， 用 于 更 改 配置 值 的 ALTER SYSTEM 语句 ， 后 台 工 作 
2014-12-18 进程 动态 注册 /启动 /停止 ,逻辑 解析 API，Linux 大 页 支持 ，pg_prewarm 


2016-01-07 UPSERT, 行 级 安全 , 数据 抽样 , BRIN 索引 


并 行 查询 ，PostgreSQL 外 部 表 增 加 排序 合并 操作 下 推 、 多 个 同步 复制 从 
库 、vacuum 大 表 速 度 增加 


2017-10-05 逻辑 复制 ， 原 生 分 区 表 、 并 行 查询 增强 


15.2 ”小 版 本 升级 


PostgreSQL 每 次 的 小 版 本 升级 不 会 改变 内 部 的 
存储 格式 ， 也 不 会 改变 数据 目录 ， 并 且 总 是 同上 兼 
容 同 一 主 版 本 ， 例 如 9.6.2 与 9.6.1 总 是 兼容 的 ， 以 此 
类 推 ，9.6.3 与 9.6.2 也 是 兼容 的 ， 不 论 他 们 之 间 跨 越 
了 几 个 小 版 本 。 升 级 小 版 本 也 很 简单 ， 只 需要 安装 
新 的 可 执行 文件 ， 并 重新 启动 数据 库 实 例 。 


下 面 以 9.6.4 升 级 到 9.6.5 为 例 ， 演 示 如 何 对 小 版 
本 进行 升级 。 

查看 当前 安 六 的 服务 器 版 本 

在 查看 服务 器 版 本 的 时 候 ， 使 用 psql] 客 户 端 工 


具 连 接 到 数据 库 实例 ， 运 行 SELECT 
version () ; ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-9.6/bin/psql -p 1921 -U pguse 
psql (9.6.4) 
Type "help" for help. 
mydb=> SELECT Version( ) ; 
version 
PostgreSQL 9.6.4 on x86 _ 64-pc-linux-gnu, compiled by gcc (人 
(1 row) 


安 儿 新 的 服务 郁 版 本 

首先 检查 当前 的 安 儿 位置， 在 原来 的 安装 位 置 
履 兰 安装 新 的 服务 器 版 本 即 可 ， 安 装 步 又 略 。 

重 朋 数据库 验 证 升级 


安 儿 完 可 执行 文件 后 ， 可 以 不 必 立 即 重 局 数据 
库 服 务 磺 。 在 重 局 数 据 库 服务 之 前 ， 升 级 并 不 会 立 
即 生效 。 可 以 有 计划 地 在 数据 库 的 维护 窗口 期 间 对 
数据 库 服务 堪 进 行 重 局 。 








[postgres@pghost1 ~]$ /usr/pgsql-9.6/bin/psql -U pguser -p 192 
psql (9.6.5, server 9.6.4) 
Type "help" for help. 
mydb=> SELECT Version( ) ; 
version 


PostgreSQL 9.6.5 on x86 _ 64-pc-linux-gnu, compiled by gcc (人 
(1 row) 


在 重启 之 前 ， 可 以 看 到 命令 提示 人 符 处 显示 ， 
psdq] 客 户 端的 版 本 已 经 升级 到 了 9.6.5， 但 server 的 版 
本 还 是 9.6.4， 这 里 应 当 注 意 理 解 和 区 分 命令 行 中 
psq] 客 户 问 的 成 本 和 server 冰 的 版 本 。 重 局 之 后 再 检 
查 服 务 器 的 版 本 ，server 端 才 会 升级 到 9.6.5， 此 处 
略 去 重 司 和 再 次 检查 的 步骤 ， 请 上 自行 实验 。 














15.3 ”大 版 本 升级 


PostgreSQL 有 发行 的 大 版 本 通 弟 不 会 改变 内 部 数 
据 存 储 格式 ， 但 可 能 会 有 一 些 系 统 表 的 表 结 构 变 更 
以 及 内 置 函数 的 变化 等 ， 使 得 升级 并 不 像 小 版 本 升 
级 那么 容易 。 大 版 本 的 升级 可 以 将 数据 以 转 储 的 方 
式 转 储 到 文件 ， 再 将 转 储 的 数据 文件 导入 新 版 本 
中 ， 也 可 以 通过 pg_upgrade 和 pg_logical 扩 展 进行 升 
级 ，PostgreSQL 10 还 可 以 通过 逻辑 复制 的 方式 进行 
版 本 升级 ， 为 数据 库 版 本 升级 提供 了 更 多 的 便利 。 


无 论 采 用 哪 一 种 升级 方式 ， 升 级 之 前 的 应 用 程 
序 测试 、 数 据 库 功能 测试 、 连 接 驱 动 测试 都 是 非常 
必要 的 。PostgreSQL 开 发 人 员 会 在 发 行 新 版 本 时 发 
布 该 版 本 的 release notes， 升 级 之 前 也 应 该 仔细 阅读 
它 ， 关 注 与 上 一 版 本 的 差异 以 及 升级 注意 事项 。 数 
据 库 管理 员 在 升级 之 前 还 应 该 做 好 升级 失败 的 应 对 
音 施 ， 尽 可 能 保留 一 份 升级 前 的 副本 ， 以 应 对 意外 
时 的 快速 回 滚 。 











15.3.1 通过 pg_dumpall 进 行 大 版 本 升级 


如 果 使 用 pg_dumpall 方 式 升级 ， 也 就 是 转 储 方 
式 升 级 ， 实 际 上 是 将 数据 库 在 旧版 本 中 先 备 份 ， 备 


份 结束 后 在 新 版 本 中 进行 还 原 的 过 程 ， 需 要 有 一 定 
时 间 的 停机 维护 窗口 ， 升 级 持续 的 时 间 主 要 取决 于 
数据 量 的 大 小 和 磁盘 的 写 入 速度 ， 如 条 数据 量 很 
大 ， 升 级 会 持续 很 长 时 间 ， 所 以 在 升级 之 前 一 定 要 
规划 好 集 机 维护 时 间 。 


使 用 转 储 方式 升级 也 有 一 些 优点 。 通 过 一 次 全 
库 有 的 转 储 和 恢复 的 过 程 ， 新 版 本 的 数据 库 会 比 
较 “ 纯 净 ”"， 一 些 历史 遗留 的 、 未 能 回收 的 垃圾 部 可 
以 清理 干 兆 。 


我 们 以 PostgreSQL 9.3 升 级 到 10 为 例 ， 学 习 如 
何 通 过 转 储 方式 升级 到 大 版 本 。 


1. 安 沾 靳 版 本 


如 果 使 用 源码 编译 安装 或 日 行 制作 的 RPM 软 件 
包 安 装 ， 需 要 注意 安装 文件 除 --prefix 之 外 的 编译 参 
数 保 持 一 致 。 首 先 安 装 PostgreSQL 10， 并 创建 新 版 
本 的 数据 库 实例 ， 如 下 所 示 : 











[postgres@pghost1 ~]$ /usr/pgsql-10/bin/initdb -D /pgdata/10/d 


2. 应 用 旧版 本 的 配置 文件 
为 pg_dumpall 并 不 会 备份 你 的 配置 文件 ， 所 


以 需要 手动 移动 旧版 本 数据 库 实例 的 配置 文件 到 新 
版 本 ， 包 括 pg_hba.conf、pg_ident.conf、 
postgresql.conf 文 件 ， 如 果 有 目 定 义 的 配置 文件 ， 也 
应 该 将 它们 复制 到 新 版 本 中 。 


窗 六 新 版 本 的 pg_hba.conf 和 pg_ident.conf 文 
件 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ cp /pgdata/9.3/data/pg_hba.conf /pgdata/ 
[postgres@pghost1 ~]$ cp /pgdata/9.3/data/pg_ident.conf /pgdat 


对 于 大 版 本 的 变化 ， 由 于 GUC 参 数 的 变更 ， 
postgresql.conf 文 件 的 参数 也 会 发 生变 化 。 所 以 对 于 
postgresql.conf 配 置 文 件 ， 不 要 直接 和 窗 新 新 版 本 的 配 
置 ， 可 以 修改 新 版 本 postgresql.conf 的 include 参 数 指 
定 旧版 本 的 参数 文件 ， 例 如 pg93.conf， 并 将 它 放 置 
在 新 版 本 的 数据 目录 中 ， 局 动 新 版 本 的 时 候 会 加 载 
pg93.conf 文 件 ， 如 果 有 参数 变更 的 情况 ， 调 整 
pg93.conf 后 在 postgresql.conf 重 新 配置 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ cp /pgdata/9.3/data/postgresql.conf /pgd 


3. 符 试 月 动 新 版 本 
做 完 配 图 的 迁移 之 后 ， 可 以 竹 试 局 动 一 次 新 版 


本 。 由 于 版 本 更 茶 ， 司 动 时 可 能 会 有 一 些 参数 不 兼 
容 的 情况 发 生 ， 例 如 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ctl -D /pgdata/10/d 

waiting for server to start. 

2017-10-06 06:51:12.950 GMT [652] LOG: Unrecognized configura 

2017-10-06 06:51:12.950 GMT [652] FATAL: configuration file " 
stopped waiting 

pg9_ctl: could not start server 


由 于 参数 的 变化 ， 导 致 启动 失败 。 发 生 这 种 情 

， 仔 细 阅 读 9.3 到 10 版 本 的 release notes， 找 到 参 
SE 了 解 它 的 意义 后 调整 这 些 参数 ， 
保证 新 版 本 实例 可 以 局 动 。 


4. 检 查 旧 版 本 状态 


在 升级 期 间 ， 应 该 阻止 旧版 本 的 写 入 和 更 新 ， 
因为 旧版 本 的 写 入 和 更 新 不 会 包括 在 pg_dumpall 有 的 
备份 中 ， 可 以 通过 iptables 或 pg_hba.conf 限 制 访问 。 
还 可 以 将 数据 库 设 置 为 只 谈 ， 确 保 不 会 有 新 的 插入 
删除 操作 。 将 数据 库 设 置 为 只 读 的 方法 


修改 postgresql.conf 的 
default_transaction_read_only 人 参数 的 值 为 on， 访 方法 
适合 大 部 分 的 版 本 。 


9.4 及 以 后 版 本 还 可 以 使 用 ALTER DATABASE 
的 方法 进行 设置 ， 如 下 所 示 : 


mydb=# ALTER DATABASE mydb SET default_ transaction_read_only = 


如 果 使 用 了 pgbouncer 连 接 池 ， 可 以 通过 
pgbouncer 连 接 池 进行 检查 ， 查 看 是 否 有 新 的 请 求 。 
如 果 仿 机 升级 ， 应 该 在 数据 库 层面 再 进行 检查 是 否 
还 有 活动 的 连接 ， 如 下 所 示 : 











[postgres@pghost1 ~]$ /usr/pgsql-9.3/bin/psql -p 5433 -U pguse 

psdqlL (9.3.15, server 9.3.15) 

Type "help" for help. 

mydb=> SELECT state,COUNT(*) FROM pg_stat activity WHERE pid < 
state | count 

i es 


(© rows) 


5. 升 级 到 新 版 本 


首先 使 用 pg_dumpall 命 令 把 旧版 本 数据 备份 到 
文件 ， 在 备份 时 应 该 使 用 新 版 本 的 pg_dumpall 工 
具 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_dumpall -p 5432 > b 


然后 把 备份 数据 文件 移动 到 新 版 本 所 在 服务 避 


上 ， 并 在 新 版 本 还 原 旧 版 本 的 备份 数据 ， 如 下 所 
修 \: 





/usr/pgsql-10/bin/psql -p 1921 -f backup.sql 








这 样 做 简单 明了 ， 但 是 它 会 在 备份 时 把 文件 写 
入 和 破 往 ， 把 备份 文件 移动 到 新 厂 本 的 服务 器 上 时 再 
写 入 一 次 位 检 ， 效 率 会 比较 低 。 在 Linux 中 我 们 通 
0 如 下 
所 示 : 








[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ dumpall -p 5432 | / 
SET 


CREATE ROLE 

ALTER ROLE 

ERROR: role "postgres" already exists 
ALTER ROLE 

CREATE DATABASE 

REVOKE 

GRANT 

You are now connected to database "mydb" as user "postgres". 
SET 

CREATE EXTENSION 

COMMENT 


ALTER TABLE 
COPY 3 
setval 


命令 结束 后 没有 错误 提示 残 说 明 已 经 升级 成 
功 ， 可 以 关闭 旧版 本 数据 库 ， 如 打 遇 到 “ERROR: 
role"postgres"already exists” 这 种 postgres 已 存在 的 错 
误 ， 可 以 忽略 它 。 可 以 连接 到 新 版 本 的 数据 库 再 次 
校 验 。 确 认 升 级 成 功 后 ， 可 以 完 把 旧版 本 保留 一 段 
时 间 ， 并 尽快 在 新 版 本 中 恢复 备份 、 归 档 机 制 ， 确 
保 数 据 安全 之 后 再 酌情 处 理 旧 版 本 的 数据 。 


15.3.2” 通 过 pg_upgrade 进 行 大 版 本 升级 


大 版 本 升级 通常 使 用 pg_upgrade 工 具 。 用 
pg_upgrade 进 行 大 版 本 升级 不 需要 费时 的 转 储 方 
式 ， 但 是 升级 总 是 有 风险 的 ， 例 如 升级 过 程 中 的 便 
件 故 障 等 ， 所 以 第 一 重要 的 事情 依然 是 做 好 备份 。 
升级 之 前 需要 检查 旧版 本 已 经 安装 的 外 部 扩展 ， 有 
一 些 外 部 扩展 要 求 在 升级 之 前 先 升 级 旧版 本 的 外 部 
扩展 ， 例 如 PostGIS。 


我 们 以 PostgreSQL 9.3 升 级 到 10 为 例 ， 学 习 如 
何 使 用 pg_upgrade 升 级 到 大 版 本 。 


1.pg_upgrade 介 绍 
pg_upgrade 会 创建 新 的 系统 表 ， 并 以 重用 旧 的 


数据 文件 的 方式 进行 升级 ， 如 采 将 来 有 大 版 本 更 改 
数据 存储 格式 ， 这 种 升级 方式 将 不 适用 ， 但 





PostgreSQL 社 区 会 尽量 避免 这 种 情况 的 发 生 。 


通过 帮助 可 以 查看 pg_upgrade 的 参数 选项 ， 参 
数 选项 如 下 所 示 : 
























































-b，--old-bindir=BINDIR 旧版 本 PostgreSQL 的 可 执行 文件 

-B，--new-bindir=BINDIR 新 版 本 PostgreSQL 的 可 执行 文件 

-C，--check 只 检查 升级 兼容 性 ， 不 会 真正 的 升 

-d, --old-datadir=DATADIR 旧版 本 的 数据 目录 

-D, --new-datadir=DATADIR 新 版 本 的 数据 目录 

-j, --jobs 允许 多 个 CPU 核 复制 或 链接 文件 以 A 
模式 ， 一 般 可 以 设置 为 CPU 核 数 。 访 
时 间 。 

-k, --link 硬 链接 方式 升级 

-0, --0ld-options=OPTIONS 直接 传送 给 旧 postgres 命令 的 选 

-0, --new-options=OPTIONS 直接 传送 给 新 postgres 命令 的 选 

-p, --old-port=PORT 旧版 本 使 用 的 端口 号 ，pg_upgrad 
运行 实例 避免 意外 的 客户 端 连接 。 

-P，--new-port=PORT 新 版 本 使 用 的 端口 号 。 由 于 升级 期 
所 以 新 版 本 也 会 默认 使 用 50432 端 [ 
运行 中 的 旧版 本 实例 时 ,新 旧版 本 实 











-r, --retain 即使 在 成 功 完成 后 也 保留 SQL 和 日 起 











在 升级 之 前 应 该 运行 pg_upgrade 并 用 -c 人 参数 检 
伍 新 旧版 本 的 兼容 性 ， 把 每 一 项 不 兼容 的 问题 都 解 
决 了 才 可 以 顺利 升级 。 使 用 pg_upgrade 时 加 上 -c 参 
数 只 会 检 枉 新 旧版 本 的 兼容 性 ， 不 会 运行 真正 的 升 
级 程序 ， 不 会 修改 数据 文件 ， 并 且 在 命令 结束 时 ， 
会 输出 一 1 还 会 对 需要 手动 调整 
的 项 做 出 简要 的 摘 述 


pg_upgrade 有 普通 模式 和 Link 模 式 两 种 升级 模 








式 。 在 普通 模式 下 ， 会 把 旧版 本 的 数据 拷贝 到 新 版 
本 中 ， 所 以 如 条 使 用 普通 模式 升级 ， 要 确保 有 足够 
的 磁盘 空间 存储 新 旧 两 份 数据 ，link 模 式 下 ， 只 是 
在 独 版 本 的 数据 目录 中 建 并 了 旧版 本 数据 文件 的 便 
链接 ， 可 以 有 效 减少 磁盘 占用 的 空间 。 


2. 使 用 pg_upgrade 升 级 
1) 安装 新 版 本 PostgreSQL 并 初始 化 数据 日 
孙 。 





2) 仿 止 旧版 本 数据 库 。 
3) 检 本 新 旧版 本 兼容 性 。 


好 的 习惯 是 先 使 用 “--check” 参 数 检查 新 旧版 本 
的 兼容 性 ， 避 免 因 升级 失败 造成 长 时 间 的 宕 机 ， 如 
人 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_upgrade -b /usr/pgs 
Performing Consistency Checks 


Checking cluster versions ok 


Checking for prepared transactions ok 
*Clusters are compatible* 


最 后 一 行 输出 “Clusters are compatible” 说 明 已 


经 通过 兼容 性 测试 ， 如 条 最 后 一 行 输出 “Failure， 
exiting”， 说 明 新 旧版 本 不 兼容 ， 这 时 应 该 查看 输出 
中 给 出 的 提示 ， 例 如 : 





Your installation references loadable libraries that are missi 
new installation. You can add these libraries to the new inst 
or remove the functions using them from the old installation. 
problem libraries is in the file: 

loadable_ libraries.txt 





根据 提示 查看 loadable libraries.txt 文 件 ， 如 下 
所 示 : 





[postgres@pghost1 ~]$ cat loadable libraries.txt 
could not load library "$1ibdir/postgis-2.3": ERROR: could no 
could not load library "$1libdir/rtpostgis-2.3": ERROR: could 





这 时 应 该 手动 消除 这 些 冲突 ， 和 直到 通过 兼容 性 
测试 。 


还 有 一 类 第 见 的 warning， 如 下 所 示 : 





Checking for hash indexes warning 

Your installation contains hash indexes. These indexes have d 
internal formats between your old and new clusters, so they mu 
reindexed with the REINDEX command. After upgrading, you will 
REINDEX instructions. 





这 是 因为 在 PostgreSQL 10 和 以 前 的 版 本 中 的 


hash 索 引 的 内 部 结构 发 生 了 变化 ， 在 升级 之 后 ， 
hash 索 引 会 变 为 不 可 用 ， 例 如 : 





mydb=# \d+ tbl 
Indexes: 
"tbl_hash_idx" hash (column_name) INVALID 





但 是 这 个 warning 可 以 不 用 处 理 ， 在 升级 结束 
后 重建 hash 类 型 的 索引 并 删除 无 效 索 引 即 可 ， 如 下 
所 示 : 





mydb=# CREATE INDEX CONCURRENTLY ON th USING HASH(column_name) 
CREATE INDEX 

mydb=# DROP INDEX tbl_hash_idx; 

DROP INDEX 





4) 使 用 pg_upgrade 普 通 模 式 升级 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_upgrade -b /usr/pgs 
Performing Consistency Checks 


Checking cluster versions ok 
Checking database user is the install user ok 
Checking database connection settings ok 
Checking for prepared transactions ok 
Cchecking for reg* data types in user tables ok 
Checking for contrib/isn with bigint-passing mismatch ok 
Checking for invalid "unknown" user columns ok 
Checking for roles starting with "pg_" ok 
Checking for incompatible "line" data type ok 
Creating dump of global objects ok 


Creating dump of database schemas 


Checking for presence of required libraries ok 
Checking database user is the install user ok 
Checking for prepared transactions ok 


If pg_upgrade fails after this point, you must re-initdb the 
new cluster before continuing. 
Performing Upgrade 


Analyzing all rows in the new cluster ok 
Freezing all rows in the new cluster ok 
Deleting files from new pg_xact ok 
Copying old pg_clog to new server ok 
Setting next transaction ID and epoch for new cluster ok 
Deleting files from new pg_multixact/offsets ok 
Copying old pg multixact/offsets to new server ok 
Deleting files from new pg_multixact/members ok 
Copying old pg_multixact/members to new server ok 
Setting next multixact ID and offset for new cluster ok 
Resetting WAL archives ok 
Setting frozenxid and minmxid counters in new cluster ok 
Restoring global objects in the new cluster ok 
Restoring database schemas in the new cluster 

ok 
Copying user relation files 

ok 
Setting next OID for new cluster ok 
Sync data directory to disk ok 
Creating script to analyze new cluster ok 
Creating script to delete old cluster ok 
Cchecking for hash indexes ok 


Upgrade Complete 

Optimizer statistics are not transferred by pg_upgrade so, 

once you start the new server, consider running: 
./analyze_new_cluster.sh 

Running this Script will delete the old cluster's data files: 
./delete old cluster.sh 





如 果 运 行 pg_upgrade 失 败 ， 必 须 重 新 初始 化 新 
版 本 的 数据 目录 。 看 到 “Upgrade Complete” 说 明 升 
级 已 经 顺利 完成 。 





5) 使 用 pg_upgrade 的 link 模 式 升级 。 


使 用 link 模 式 升级 和 普通 模式 升级 有 一 些 区 
别 。 首 先 需 要 了 解 旧 版 本 有 哪些 Extension 及 表 空 
间 ; 如 下 所 示 : 





mydb=# \db 
List of tablespaces 
Name | Owner | Location 

a 后 征 下 生生 本 

pg_default | postgres | 

pg_9lobal | postgres | 

pgtablespace | postgres | /pgdata/pgtablespace 
(3 rows) 
mydb=# \dx 

List of installed extensi 
Name | Version | Schema | 

六 Te 
pg_stat_statements | 1.1 | public | track execution st 
plpgsql | 1.0 | pg_catalog | PL/pgSQL procedura 
(2 rows) 





运行 pg_upgrade 程 序 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_upgrade -b /usr/pgs 
Performing Consistency Checks 


Checking cluster versions ok 


Checking for prepared transactions ok 
If pg_upgrade fails after this point, you must re-initdb the 
new cluster before continuing. 

Performing Upgrade 

Analyzing all rows in the new cluster ok 
Freezing all rows in the new cluster ok 


Deleting files from new pg_xact ok 


Copying old pg_clog to new server ok 
Setting next transaction ID and epoch for new cluster ok 
Deleting files from new pg_multixact/offsets ok 
Copying old pg_multixact/offsets to new server ok 
Deleting files from new pg_multixact/members ok 
Copying old pg_multixact/members to new server ok 
Setting next multixact ID and offset for new cluster ok 
Resetting WAL archives ok 
Setting frozenxid and minmxid counters in new cluster ok 
Restoring global objects in the new cluster ok 
Restoring database schemas in the new cluster 

ok 
Adding ".old" suffix to old global/pg_control ok 


If you want to start the old cluster, you will need to remove 
the ".old" suffix from /pgdata/9.3/data/global/pg_control.old. 
Because "link" mode was used, the old cluster cannot be safely 
started once the new cluster has been started. 

Linking user relation files 


ok 
Setting next OID for new cluster ok 
Sync data directory to disk ok 
Creating script to analyze new cluster ok 
Creating script to delete old cluster ok 
Checking for hash indexes ok 


Upgrade Complete 

Optimizer statistics are not transferred by pg_upgrade so, 

once you start the new server, consider running: 
./analyze_new_cluster.sh 

Running this Script will delete the old cluster's data files: 
./delete_ old cluster.sh 





当 使 用 链接 模式 运行 pg_upgrade 之 后 ， 
pg_upgrade 程 序 会 把 旧版 本 数据 目录 中 的 pg_control 
文件 重 命 名 为 pg_control.old， 如 果 仍 然 想 运行 旧版 
本 的 数据 库 实 例 ， 需 要 把 pg_control.old 重 命名 回 
pg_control。 但 是 一 旦 使 用 新 版 本 局 动 了 数据 库 实 
例 ， 旧 的 实例 将 无 法 再 被 访问 ， 这 一 点 一 定 要 注 














响 


6) 更 新 统计 信息 。 


pg_upgrade 会 会 创建 新 的 系统 表 ， 并 重用 旧 的 数 
据 进 行 升级 ， 统 计 信 息 并 不 会 随 升 级 过 程 迁移 ， 所 
以 在 启用 新 版 本 之 前 ， 应 该 首先 重新 收集 统计 信 
晨 ， 避 人 免 没 有 统计 信息 导致 错 误 的 查询 计划 。 


在 升级 结束 后 ， 会 在 执行 pg_upgrade 命 令 时 的 
所 在 目 承 生成 analyze_ new_cluster.sh， 通 过 查看 它 
的 内 容 知 道 它 只 是 执行 了 -in- 
命令 ， 它 不 执行 VACUUM 命令 ， 只 是 快速 创 

最 少 由 优化 统计 信息 恩 让 数据 库 可 用 。 我 们 可 以 手 
地 过 云 行 VACUUM 命 令 ， 如 下 所 示 : 























[postgres@pghost1 ~]$ /usr/pgsql-10/bin/vacuumdb -a --analyze- 


7) 局 动 新 版 本 实例 ， 连 接 并 验证 数据 ， 如 下 
I 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ctl -D /pgdata/10/d 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/psql -p 1921 mydb 
psql (10.0) 
Type "help" for help. 
mydb=# SELECT Version( ) ; 
version 


PostgreSQL 10.0 on x86_64-pc-linux-gnu, compiled by gcc (GCC ) 
(1 row) 


8) 移 除 旧 版 本 数据 。 


确认 新 版 本 运行 正 第 ， 酌 迟 移 除 旧 版 本 的 数据 
目录 即 可 ， 这 一 步 不 是 升级 之 后 必须 立即 做 的 。 


3. 使 用 pg_upgrade 升 级 从 库 

单机 或 主 库 的 升级 很 钊 规 ， 但 如 果 是 一 主 多 从 
的 复制 模式 ， 还 需要 升级 对 应 的 从 库 ， 升 级 从 库 的 
步骤 如 下 : 

1) 配置 为 同步 复制 模式 。 

PostgreSQL 的 复制 模式 是 异步 复制 模式 ， 我 们 


需要 先 确 定 当 前 从 库 的 复制 模式 是 同步 模式 还 是 异 
步 模式 ， 如 下 所 示 : 


postgres=# SELECT application name,client addr,sync_state FROM 


application_ name | client addr | sync_state 
ER 人 
walreceiver | 10.191.136.3 | async 
(1 row) 





查看 sync_state 的 值 。async 表 示 异 步 复 制 ， 
sync 表 示 同 步 复 制 ， 从 上 面 的 查询 可 知 当 前 的 复制 





人 我 们 通过 需要 将 它 修 改 为 同步 复 
| 


修改 postgresql.conf 的 参 
数 “synchronous_standby_names”， 作 为 升级 的 处 
理 ， 我 们 可 以 人 简单 地 将 它 的 值 设置 为 *， 表 示 所 有 
的 从 库 都 使 用 同步 复制 模式 进行 复制 。 


修改 之 后 reload 使 之 生效 ， 如 下 所 示 : 


mydb=# SELECT pg_reload_conf(); 
pg_reload_conf 





2) 关闭 集群 并 校 验 检查 点 。 


将 复制 集群 修改 为 同步 复制 之 后 ， 先 关闭 主 
库 ， 再 关闭 从 库 ， 确 保 : 主 库 和 从 库 的 “Latest 
checkpoint location” 一 致 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-9.3/bin/pg_ctl1 -D /pgdata/9.3 
waiting for server to shut down.... done 

server stopped 

[postgres@pghost1 ~]$ 


通过 pg_controldata 验 证 主 库 和 从 库 的 “Latest 


checkpoint location” 是 否 相 同 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-9.3/bin/pg_controldata /pgdat 
grep "Latest checkpoint location" 


Latest checkpoint location: 0/1F000028 
[postgres@pghost2 ~]$ /usr/pgsql-9.3/bin/pg_controldata /pgdat 
Latest checkpoint location: 0/1F000028 





3) 升级 主 库 到 新 版 本 。 
首先 初始 化 高 版 本 数据 目录 ， 如 下 所 未: 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/initdb -k -D /pgdata/1 





然后 复制 一 份 初始 化 后 的 高 版 本 数据 目录 a 到 从 
库 服 务 嚣 ， 并 校 验 两 份 初始 化 目录 的 “Database 
system identifier”， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_controldata /Xpgdata 


Database system identifier: 6504563477800205659 
[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pg_controldata /Xpgdata 
Database system identifier: 6504563477800205659 





备份 旧 厂 本 的 配置 文件 ， 使 用 pg_upgrade 将 主 
库 升 级 到 新 版 本 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_upgrade -b /usr/pgs 





升级 之 后 应 用 旧版 本 的 配置 文件 。 
4) 升级 从 库 到 新 版 本 。 
首先 备份 从 库 服 务 融 的 配置 文件 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ cp /pgdata/9.3/data _ slave/*.conf /Xpgdata 


然后 使 用 pg_upgrade 将 从 库 升 级 到 新 版 本 ， 如 
TI: 


[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pg_upgrade -b /usr/pgs 





如 果 不 是 通过 复制 一 份 主 库 的 初始 化 数据 目录 
到 从 库 ， 而 是 在 从 库 再 次 初始 化 数据 目录 ， 在 升级 
从 库 并 局 动 它 时 ， 由 于 控制 文件 的 *Database system 
identifier" 不 一 致 ， 会 有 如 下 错误 : 


2017-11-28 18:42:24.692 CST,,,82112,,5a44ca90.140c0,1,,2017-11 
the standby's identifier is 6504544106935856722,."，，，，，y， "WalRe 


5) 启动 新 版 本 主 库 。 


应 用 旧版 本 主 库 的 配置 文件 之 后 启动 新 版 本 的 
Master 实 例 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ /usr/pgsql-10/bin/pg_ctl -D /pgdata/10/d 





6) 局 动 狐 版 本 从 库 。 


应 用 旧版 本 从 库 的 配置 文件 及 recovery.conf 之 
后 局 动 狐 版 本 的 从 库 实例 ， 如 下 所 示 : 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pg_ctl1 -D /pgdata/10/d 





7) 检查 升级 结 
检查 升级 后 的 版 本 ， 如 下 所 示 : 





mydb=# select version(); 
version 

PostgreSQL 10.1 on x86 64-pc-linux-gnu, compiled by gcc (G 
(1 row) 





查看 从 库 是 否 能 人 否 正 党 复制 ， 如 下 所 示 : 





mydb=# SELECT client_addr,sync_state FROM pg_stat_replication; 
client _ addr | sync_state 

AV Se 
pghost2 | sync 

(1 row) 


二 一 


15.3.3 ”使 用 pglogical 升 级 大 版 本 


1.pglogical 介 绍 





2ndQuadrant 公 司 的 开源 pglogical Extension 为 
PostgreSQL 提 供 了 巡 辑 复制 的 能 力 ， 巡 辑 复制 也 可 
以 作为 跨 版 本 升级 的 男 一 种 解决 方案 。pglogical 的 
术语 用 Node 指 代 一 个 PostgreSQL 实 例 ，Providers 和 和 
Subscribers 指 不 同 Node 的 角色 ，Replication Set 是 所 
需 复 制 的 表 的 集合 。 


2. 使 用 pglogical 升 级 的 限制 

使 用 pglogical 升 级 的 优点 是 可 以 在 更 短 的 停机 
时 间 内 完成 升级 ， 并 且 即 使 升级 失败 也 很 容易 进行 
回 深 ， 但 在 升级 之 前 则 有 大 量 的 检查 和 准备 工作 要 
做 。 

pglogical 有 如 下 限制 |: 


-PostgreSQL 9.4 及 以 上 版 本 ; 





: 每 张 表 都 必须 有 PRIMARY KEY 或 者 
REPLICA IDENTITY; 


. 不 能 复制 UNLOGGED 和 TEMPORARY 表 : 


一 次 只 复制 一 个 实例 中 的 一 个 Database; 


:无 法 复制 DDL (在 升级 期 间 的 DDL 都 通过 
ppglogicalfeplicate_ddl_command 执 行 ， 但 依然 有 其 他 
影响 ) ; 

了 解 以 上 限制 之 后 ， 才 可 以 次 定 pglogical 坪 合 
适合 对 当前 环境 进行 升级 ， 因 此 如 采 数 据 库 中 有 较 
多 的 表 是 没有 主键 的 ， 或 者 其 他 条 件 不 满足 ， 则 可 
能 不 适合 使 用 pglogical 进 行 升级 。 

3. 使 用 pglogical 进 行 大 版 本 升级 


下 面 以 PostgreSQL 9.4 升 级 到 PostgreSQL 10 为 
例 ， 人 简单 介绍 使 用 pglogical 的 升级 步骤。 


1) 实例 化 新 版 本 数据 目录 ， 如 下 所 示 : 











[postgres@pghost2 ~]$ /usr/pgsql-10/bin/initdb -k -D /pgdata/1 


2) 局 动 新 版 本 ， 如 下 所 示 : 


[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pg-ctl -D /pgdata/10/d 


3) 从 低 版 本 导入 schema 到 新 版 本 中 ， 如 下 所 


修 : 


-Fp -V-c-s- 





[postgres@pghost2 ~]$ /usr/pgsql-10/bin/pg_dump 
/usr/pgsql-10/bin/psql -h pghost2 -p 1922 -d mydb 





4) 安装 pglogical。 
在 新 旧版 本 分 别 安 装 pglogical 的 repo RPM， 如 
下 所 示 : 


[root@pghost1 ~]# yum install http://packages.2ndquadrant.com/ 








在 新 旧版 本 上 分 别 安装 pglogical， 如 下 所 示 : 





# PostgreSQL 9.4 
[root@pghost1 ~]# yum install postgresql94-pglogical.x86_64 


# PostgreSQL 10 
[root@pghost2 ~]# yum install postgresql10-pglogical.x86_64 





5) 配置 pglogical 所 需 参数 。 
在 PostgreSQL 9.4 中 需要 修改 以 下 配置 : 


` 修改 pg_hba.conf 允 许 复 制 。 
修改 posteresql.conf 的 参数 wal_max_sendet， 


使 其 值 大 于 0， 例 如 10。 


` 修改 postgresql.conf 的 参数 wal_level 的 值 为 
logical。 


` 修改 postegresql.conf 的 参数 
max_replication_slots， 使 其 值 大 于 0， 例 如 10。 


分 别 在 新 旧版 本 postgresql.conf 的 
shared_preload_libraries 配 置 项 中 增加 pglogical， 修 
改 shared_preload_libraries 参 数 之 后 重新 启动 实例 使 
0 





shared_preload_ libraries = 'pglogical' 


6) 创建 pglogical Extension。 


分 别 在 新 旧版 本 创建 pglogical Extension。 如 果 
使 用 PostgreSQL 9.4， 还 需要 先 创 建 pglogical_origin 
Extension， 如 下 所 示 : 


mydb=# SELECT version(); 
version 
PostgreSQL 9.4.15 on x86 64-unknown-linux-gnu, compiled by 
(1 row) 
mydb=# CREATE EXTENSION pglogical origin; 
CREATE EXTENSION 
mydb=# CREATE EXTENSION pglogical; 


CREATE EXTENSION 
mydb=# \dx pglogical 
List of installed extensions 


Name | Version | Schema | Description 
Er Es 
pglogical | 2.1.0 | pglogical | PostgreSQL Logical Repli 
(1 row) 





在 新 版 本 创建 pglogical Extension， 如 下 所 示 : 





mydb=# SELECT version(); 

version 

PostgreSQL 10.1 on x86 64-pc-linux-gnu, compiled by gcc (CG 
(1 row) 
mydb=# CREATE EXTENSION pglogical; 
CREATE EXTENSION 
mydb=# \dx pglogical 

List of installed extensions 


Name | Version | Schema | Description 
a es 
pglogical | 2.1.0 | pglogical | PostgreSQL Logical Repli 
(1 row) 





7) 在 低 版 本 创建 provider node， 如 下 所 示 : 





mydb=# SELECT pglogical.create node(node name := 'pg94provider 
create_node 
3412564209 

(1 row) 





使 用 pglogical 提 供 的 pglogical_node_info 函 数 可 
查看 当前 的 provider node 的 信息 ， 如 下 所 示 : 


一 


mydb=# SELECT * FROM pglogical.pglogical node info(); 


node_id | node_name | sysid | dbname | 
a ee ee rd ee Tg 
3412564209| pg94provider | 6488108006998879651 | mydb | ".\x 
(1 row) 





8) 在 provider node 配 置 一 个 复制 规则 ， 如 下 所 


RE 


修 : 





mydb=# SELECT pglogical.create replication set('insert update_ 

create_replication_ set 
798613796 

(1 row) 

mydb=# SELECT * FROM pglogical.replication_ set WHERE set_name 
set_id | set_nodeid | set_name | 
i be 
798613796 | 3412564209 | insert update delete notruncate | 

(1 row) 








9) 在 provider node 配 置 需要 复制 的 表 ， 如 下 上 所 


一 < 


和 人 外: 





mydb=# SELECT pglogical.replication_ set add all tables( "Insert 
replication_set add all tables 








(1 row) 





10) 在 PostgreSQL 10 实 例 中 创建 subscription 
node, 如 下 所 示 : 


一 一 


mydb=# SELECT pglogical.create node(node name := "pglosubscrik 
create_node 
3105221948 

(1 row) 

mydb=# SELECT pglogical.create_ subscription(subscription_name 
create_subscription 

1639099831 
(1 row) 





11) 在 subscription node 启 动 同 步 数 据 ， 如 下 所 


me 


作 \: 





mydb=# SELECT pglogical.alter_subscription_ synchronize( "pg10Su 
alter_subscription_synchronize 





在 日 志 中 看 到 “finished sync of table xxx for 
subscriber pgl0subscription” 说 明 该 表 的 数据 已 经 同 
步 结 束 ， 如 下 所 示 : 





mydb=# SELECT pglogical.show subscription_ status('pgiQOsubscrir 

show_subscription_status 
(pgiOsubscription,replicating,pg94provider, "host=127.0.0.1 
(1 row) 





通过 以 上 的 检查 方法 ， 确 认 数 据 都 已 经 开始 复 


制 | 。 
12) 设置 低 版 本 实例 为 只 读 ， 如 下 所 示 : 


mydb=# ALTER SYSTEM SET default transaction_read only = 'on'; 
ALTER SYSTEM 


13) 升级 完成 后 的 检查 。 


在 旧版 本 没有 写 入 的 情况 下 ， 逐 个 验证 需要 同 
步 的 表 是 个 已 经 一 致 。 


在 github 上 还 有 一 些 使 用 pglogical 进 行 升 级 的 
封 冯 工具， 使 用 这 些 工 具 进 行 升 级 也 是 不 错 的 方 
Tt 





15.4 本 章 小 结 


在 本 章 我 们 详细 介绍 了 PostgreSQL 的 各 个 历史 
版 本 的 特性 和 功能 增强 ， 以 及 如 何 升 级 小 版 本 ， 介 
绍 了 如 何 使 用 pg_dumpall 和 pglogical 扩 展 进 行 大 版 
本 升级 ， 并 重点 介绍 pg_upgrade 工 具 和 pg_upgrade 
两 种 升级 模式 ， 以 及 如 何 使 用 pg_upgrade 升 级 从 库 
节点 。 在 PostgreSQL 10 中 有 了 逻辑 订阅 的 新 特性 ， 
因此 在 PostgreSQL 10 以 后 的 大 版 本 升级 方法 中 ， 又 
多 了 一 种 选择 ， 以 上 讲 到 的 升级 的 方法 都 应 该 切实 
掌握 并 付 诸 实践 。 


版 本 升级 的 方法 固然 很 多 ， 但 古 最 根本 、 最 关 
键 的 依然 是 对 新 版 本 充分 测试 ， 升 级 之 前 做 好 备份 
以 及 回 深 方 末 ， 升 级 过 程 仔细 校 验 。 做 到 这 几 扣 ， 
版 本 升级 已 经 成 功 了 一 半 。 








第 16 划 ”扩展 模块 


PostgreSQL 文 持 丰 是 的 扩展 模块 ， 扩 展 模 块 可 
以 完善 PostgreSQL 的 功能 ， 这 些 扩 展 模 块 主要 分 为 
两 类 : 


` 编译 安装 PostegreSQL 时 使 用 world 选 项 安装 的 
扩展 模块 


来 自 GitHub 或 第 三 方 网 站 上 的 开源 项 目 


第 一 类 扩展 模块 大 概 有 50 个 ， 这 些 扩 展 模块 所 
供 的 功能 包含 性 能 监控 、 外 部 表 、 绥 存 等 ， 这 些 扩 
展 模块 之 所 以 不 是 PostgreSQL 的 内 置 模块 仅仅 是 因 
为 这 些 特性 使 用 较 少 或 者 还 处 于 实验 阶段 ， 但 并 不 
影响 它 的 使 用 ， 特 别 是 一 些 音 用 的 扩展 模块 早 在 
PostgreSQL 9.0 版 本 时 束 已 文 持 。 


这 一 章 主 要 介绍 第 一 种 扩展 模块 ， 并 选择 其 中 
一 些 第 用 的 扩展 模块 进行 讲解 。 





16.1 CREATE EXTENSION 


使 用 gmake 命 令 编 译 安装 PostgreSQL 时 ， 如 果 
指定 world 选 项 ， 将 安 疼 一 些 扩展 模 块 到 
$PGHOME/share/extension/ 目 录 ， 编 译 安装 
PostgreSQL 的 命令 如 下 : 


# gmake world 
# gmake install-world 


以 上 命令 安装 完成 后 ， 
$PGHOME/share/extension/ 目 录 下 可 看 到 以 下 文 
件 。 


$ 11 $PGHOME/share/extension/ 


-rw-r--r-- 1 root root 794 Oct 6 10:20 pg_buffercache--1.2.s 
-rw-r--r-- 1 root root 157 Oct 6 10:20 pg_buffercache.contro 


以 .control 结 尾 的 文件 为 扩展 模块 的 名 称 ， 如 果 
不 使 用 gmake world 编 译 安装 命令 ， 这 些 扩 展 模 块 将 
不 会 安装 在 这 个 目录 中 。 


使 用 gmake world 编 译 安装 命令 安装 完 
PostgreSQL 软 件 之 后 ， 并 不 是 说 这 些 外 部 模块 已 经 








载 入 数据 库 中 ， 需 使 用 CREATE EXTENSION 命 令 
将 扩展 模块 载 入 数据 库 ， 话 法 如 下 : 


CREATE EXTENSION [ IF NOT EXISTS ] extension_name 


以 上 命令 通常 需要 超级 用 户 权 限 ， 创 建 扩 展 模 
块 的 同时 会 在 数据 库 中 创建 额外 的 表 、 函 数 等 对 
象 ， 值 得 一 提 的 是 ， posigro Or 9.1 之 前 版 本 不 文 
持 CREATE EXTENSION 命 令 ， 安 装 扩展 模块 时 需 
将 外 部 扩展 的 SQL 文件 导入 数据 库 中 。 


创建 pg_buffercache 扩 展 模 块 ， 如 下 所 示 : 


postgres=# CREATE EXTENSION pg_buffercache; 
CREATE EXTENSION 


可 通过 \dx 元 命令 俘 看 当前 数据 库 中 已 安装 的 
扩展 模块 ， 如 下 所 示 : 


postgres=# \dx 
List of installed extensions 
Name | Version | Schema | Descript 


pg_buffercache 
plpgsql 
(2 rows) 


| public | examine the shared 
| pg_catalog | PL/pgSQL procedura 


也 可 以 通过 pg_extension 系 统 表 查 看 已 安装 的 
扩展 模块 ， 如 下 所 示 : 





postgres=# SELECT * FROM pg_extension ;，; 


extname | extowner | extnamespace | extrelocatable | extve 
六 于 主人 
plpgsql | 10 | 11 | f | 1. 
pg_buffercache | 10 | 2200 | t Ws Is 
(2 rows) 








如 果 想 查看 数据 库 有 哪些 可 加 载 的 扩展 模块 ， 
可 查看 pg_available_extensions 视 图 ， 如 下 所 示 : 











pg_available_extensions 视 图 ， 如 下 所 示 : 
postgres=# SELECT * FROM pg_available extensions; 


name | default_version | installed version | 
Re TT 
pg_buffercache | 1.3 | 1.3 | ex 
(43 rows ) 





pg_available_extensions 视 图 显示 数据 库 中 可 以 
安装 的 扩展 模块 列表 ， 主 要 信息 包括 : 


name: 指 扩展 模块 名 称 。 
. default_version: 扩展 模块 的 默认 版 本 。 


` installed_version: 当前 安装 的 扩展 模块 版 


comtment: 扩展 模块 注释 。 


百 续 小 节 将 介绍 种 用 的 扩展 模块 。 


16.2 pg_stat_statements 


pg_stat_statements 扩 展 模 块 用 于 收集 数据 库 中 
的 SQL 运行 信息 ， 例 如 SQL 的 总 执行 时 间 、 调 用 次 
数 、 共 享 内 存 命中 情况 等 信息 ， 常 用 于 监控 
PostgreSQL 数 据 库 SQL 性 能 ， 是 数据 库 性 能 监控 的 
重要 扩展 模块 。 


pg_stat_statements 扩 展 模块 的 安装 比较 特殊 ， 
首先 需要 在 postgresql.conf 配 置 文件 中 定义 
shared_preload_libraries 参 数值 为 
pg_stat_statements， 如 下 所 示 : 





shared_preload_ libraries = 'pg_stat_statements' # (cha 
pg_stat_statements.max = 10000 
pg_stat_statements.track = all 
pg_stat_statements.track_utility = on 
pg_stat_statements.save = on 


shared_preload_libraries 设 置 数 据 库 局 动 时 需要 
加 载 的 共 圣 库 ， 可 设置 多 个 共享 库 ， 多 个 共享 库 列 
表 用 圳 写 分 隔 ， 这 里 设置 成 pg_stat_statements， 此 
参数 设置 后 需 重 局 数据 库 生 效 ， 如 果 设 置 了 
PostgreSQL 不 文 持 的 共 孚 库 ， 数 据 重 司 后 将 报错 并 
日 无 法 局 动 。 








以 上 设置 中 以 pg_stat_statements. 为 前 级 的 参数 
为 pg_stat -statements 柑 块 参数 ， postgresql.conf 配 置 
文件 模板 中 没有 这 些 参 数 ， 需 要 手工 添加 。 


p28_stat_statements.max. pg_stat_statements 参 
数 ， 设 置 此 模块 记录 的 最 大 SQL 数 ， 上 默认 5000 条 ， 
如 果 达 到 设置 值 ， 执 行 频 率 最 小 的 SQL 将 被 丢弃 。 


* P28_stat_ statements. track: pg_stat_statements 参 
数 ， 设 置 哪 类 SQL 被 记 录 ， top 指 最 外 层 的 SQL，all 
包含 函数 中 涉及 的 SQL， 这 里 设置 成 all。 


* pg_stat_statements.track_utility: 
pg_stat_statements 参 数 ， 设 置 是 否 记 录 SELECT、 
UPDATE、DELETE、INSERT 以 外 的 SQL 命 令 ， 默 
认为 on。 


”Pbg_ Stat statements.save: P28_stat_ statements 参 
数 ， 设 置 当 数据 库 关 闭 时 是 否 CR 息 记 孙 到 文 
件 中 ，off 表 示 当 数据 库 关闭 时 SQL 信息 不 会 记录 到 
文件 中 ， 默 认为 on。 


之 后 重启 数据 库 ， 如 下 所 示 : 


[postgres@pghost1 pg_root]1$ pg_ctl restart -m fast 





以 postgres 超 级 用 户 登 录 到 目标 库 ， 这 里 登录 
到 postgres 数 据 库 ， 创 建 pg_stat_statements 模 块 ， 如 
下 所 示 : 


[postgres@pghost1 loadtest]$ psql postgres 
psql (10.0) 
Type "help" for help. 


postgres=# CREATE EXTENSION pg_stat_statements ; 
CREATE EXTENSION 


之 后 会 生成 pg_stat_statements 视 图 和 
pg_stat_statements_reset〈( ) 函数 等 数据 库 对 象 。 


pg_stat_statements 视 图 主要 字段 信息 如 表 16-1 
所 示 o 


表 16-1 pg_stat_statements 视 图 字段 信息 


名 
userid 
dbid 
queryid 
query 
calls 
total time 
min time 
max time 
mean time 


IOWS 


shared blks_hit 
shared blks_read 


psg_database.old 
[| 
本 | 
| 
i | 
i | 
en | | 
[ae | 
i T 
i | 
i | 


以 上 只 列 出 了 pg_stat_statements 视 图 的 主要 字 


皮 人 信息， 


少量 字段 信息 未 列 出 ， 


描 述 
执行 此 SQL 的 用 户 OID 
此 SQL 执行 的 数据 库 OID 
此 SQL 的 编号 
此 SQL 内 容 
此 SQL 调用 次 数 
此 SQL 执行 的 总 时 间 ， 单 位 毫秒 
此 SQL 执行 的 最 小 时 间 ， 单 位 毫秒 
此 SQL 执行 的 最 大 时 间 ， 单 位 毫秒 
此 SQL 执行 的 平均 时 间 ， 单 位 毫秒 
此 SQL 影响 的 数据 行 
此 SQL 命中 的 共享 内 存 数据 块 数 
此 SQL 读 取 的 共享 内 存 数据 块 数 
此 SQL 产生 的 共享 内 存 数 据 脏 块 数量 
此 SQL 写 入 的 共享 内 存 数据 块 数 


搂 下 来 通过 


pgbench 执 行 两 条 SQL 进行 压力 测试 ， 观 察 SQL 信 息 





月 .不 人 2 


XE 会 记录 到 pg_ 


stat_statements 视 图 中 。 


编写 tran_perl.sql， 写 入 以 下 内 容 ， 如 下 所 示 : 





\set v_id random(1,10000000) 


SELECT name FROM test peri1 WHERE id=:v_id; 
UPDATE test_per2 SET flag='1” WHERE id=:v_id; 





运行 pgbench 命 令 ， 大 量 执行 以 上 两 条 SQL， 


如 下 所 示 : 





$ pgbench -c 4 -T 120 -d postgres -U postgres -nN -M prepared 
tran_per1 4.0ut 2>&1 & 





根据 pg_stat_statements 视 图 ， 可 以 从 多 个 维度 
监控 SQL， 例 如 监控 执行 最 频 过 的 SQL， 只 需 根据 
SQL 调用 次 数 calls 降 序 排序 即 可 ， 如 下 上 所 示 : 








postgres=# SELECT userid,dbid,queryid,query,calls, 
total time,min_ time,max_time,mean_time,rows 
FROM pg_stat_statements ORDER BY calls DESC LIMIT 2; 


-[ RECORD 1 ] 


userid 
dbid 
queryid 
query 
calls 
total time 
min_time 
max_time 
mean_time 
rows 


-[ RECORD 2 ] 


userid 
dbid 
queryid 
query 
calls 
total_ time 
min_time 
max_time 
mean_time 
rows 


13158 

1758110241 

UPDATE test_ per2 SET flag=$2 WHERE id=$1 
812691 

83537.8480209997 

0.015113 

6583 .11359 

0.102791649004361 

812691 


13158 

2354798721 

SELECT name FROM test_ peri1 WHERE id=$1 
812691 

28687.6311289994 

0.008581 

76.785687 

©0.0352995555863171 

812691 





监控 慢 


SQL， 如 下 所 示 : 





postgres=# SELECT userid,dbid,queryid,query,calls, 


total time main _ time max time mean timey rc 
FROM pg_stat_statements ORDER BY mean_time DESC LIMIT 1; 


=[ RECORDL = 
userid | 10 

dbid | 13158 

queryid | 125206108 

duery | select pg_sleep($1) 

calls | 1 

total time | 6019.78287 

min_time | 6019.78287 

max_time | 6019.78287 

mean_time | 6019.78287 








监控 慑 SQL 只 需 根据 mean_time 降 序 排 序 即 
可 ， 其 他 监控 SQL 可 根据 实际 情况 编写 ， 这 里 不 再 
举例 。 


随 着 数据 库 运 行 ，pg_stat_statements 视 图 数据 
越 来 越 大 ， 可 通过 pg_stat_statements_reset () 函数 





postgres=# SELECT COUNT(*) FROM pg_stat_statements ;，; 
count 


20 
(1 row) 


postgres=# SELECT pg_stat_statements_reset(); 
pg9_stat_statements_reset 


(1 row) 


postgres=# SELECT COUNT(*) FROM pg_stat_statements ;，; 
count 


(1 row) 


pg_stat_statements 外 部 扩展 是 数据 库 性 能 监控 
的 必 备 工具 ， 建 议 数据 库 安 北 时 提前 将 此 模块 安装 
好 ， 需 要 使 用 时 只 需 执 行 CREATE EXTENSION 命 
令 载 入 数据 库 即 可 。 


16.3 auto_explain 


大 家 知道 可 以 通过 EXPLAIN 和 EXPLAIN 
ANALYZE 命 令 查 看 SQL 的 预计 执行 计划 和 实际 执 
行 计划 ， 当 生产 数据 库 SQL 性 能 出 现 问题 时 通常 会 
查看 当前 SQL 的 执行 计划 是 否 正 常 ， 如 果 当 前 SQL 
执行 计划 正常 ， 需 要 进一步 查看 数据 库 出 现 性 能 问 
题 时 的 SQL 的 执行 计划 ，PostgreSQL 默 认 不 提供 历 
ee 但 可 以 通过 加 载 扩展 模块 
来 实现 。 


这 一 小 节 将 介绍 auto_explain 扩 展 模 块 ， 此 模块 
能 够 目 动 将 SQL 的 执行 计划 记录 到 日 志文 件 ， 这 个 
模块 也 是 数据 库 性 能 分 析 的 一 个 重要 模块 ， 当 数据 
库 出 现 SQL 性 能 问题 时 ， 可 通过 此 模块 输出 的 SQL 
执行 计划 进行 性 能 分 析 。 


auto_explain 模 块 加 载 和 pg_stat_statements 模 块 
一 样 ， 同 样 需要 首先 在 postgresql.conf 配 置 文 件 中 设 
置 shared_preload_libraries 参 数 ， 如 下 所 示 : 








shared_preload_ libraries = 'pg_stat_statements,auto _ explain' 
auto_explain.1log min_ duration = 0 

auto_explain.1log_analyze = on 

auto_explain.1log_ buffers = off 


以 auto_explain 开 头 的 参数 为 auto_explain 模 块 
参数 ，postgresql.conf 配 置 文件 模板 中 没有 这 些 参 
数 ， 需 要 手工 添加 。 


auto_explain.log_min_duration: 设置 SQL 执行 
时 间 ， 单 位 为 毫秒 ， 数 据 库 中 执行 时 间 超 过 这 个 值 
的 SQL 的 执行 计划 将 被 记录 到 数据 库 上 日志 中 ， 设 置 
成 0 表示 记 A Ly 执行 计划 ， 设 置 成 -1 表示 不 
启用 此 功能 ， 例 如 设置 成 100ms， 数 据 库 中 所 有 执 
行 时 间 超 过 100 毫 秒 的 SQL 的 执行 计划 将 被 记录 到 数 
据 库 日 志 中 。 


* auto_explain. eA 此 选项 控制 日 志文 
件 中 SQL 执行 计划 输出 是 否 是 ANALYZE 模 式 ， 1 
当 于 EXPLAIN 命 令 开店 了 ANALYZE 选 项 ， 默 认为 
off。 


* auto_explain. 2 0 控制 日 志文 
件 中 SQL 执 行 计划 输出 是 否 包 含 数据 块 信息 ， 相 当 
于 EXPLAIN 命 令 开 启 了 BUFFERS 选 项 ， 默 认为 
off。 


以 上 仅 列 出 主要 的 auto_explain 参 数 ， 其 他 参数 
主要 为 EXPLAIN 格 式 相 关 的 参数 ， 和 EXPLAIN 命 
令 的 选项 设置 是 对 应 的 。 





设置 完成 以 上 参数 后 重 局 数据 库 ， 如 下 所 示 : 





[postgres@pghost1 pg_logl$ pg_ctl restart -m fast 








查看 数据 库 日 志 以 排查 是 否 有 错误 信息 ， 如 果 
以 上 参数 设置 不 正确 日 志 中 会 显示 错误 日 志 。 


接着 演示 SQL 的 执行 计划 是 否 会 目 动 输出 到 数 
据 库 日 志文 件 ， 开 局 一 个 会 话 执行 以 下 SQL: 











postgres=# SELECT * FROM test_per1 WHERE id=1; 


id | name | create_time 
i 站 

1 | 1 peri | 2017-09-04 21:21:44 
(1 row) 





查看 数据 库 日 志 ， 发 现 如 下 信息 : 





[postgres@pghost1 pg_logl]$ tail -f postgresql-2017-10-22 2 
2017-10-22 20:18:25.927 CST,"postgres", "postgres",24856,"[loca 
Query Text: SELECT * FROM test peri1 WHERE id=1; 

Index Scan using test peri1 pkey on test per1i (cost=0.43..4.45 

Index Cond: (id = 1)"，rrrr "Psql" 





从 以 上 日 志 可 以 看 出 ， 显 示 了 SQL 的 内 容 和 
SQL 的 实际 执行 计划 。 


以 上 示例 中 为 了 测试 方便 将 


auto_explain.log_min_duration 设 置 成 了 了 0， 生产 数 气 
库 可 以 根据 实际 情况 设置 ， 例 如 业务 比较 敏感 的 系 
统 ， 设 置 成 100 吧 秒 可 能 比较 合适 ， 及 时 发 现 并 优 
化 慑 SQL， 对 于 一 些 日 志 库 ， 这 个 值 可 设置 得 较 大 
止 c 





auto_explain 扩 展 模块 是 PostgreSQL 数 据 库 性 能 
分 析 的 一 个 重要 工具 ， 特 别 是 当 数 据 库 性 能 出 现 波 
动 时 对 于 历史 的 SQL 排 租 本 喘 束 有 较 大 难度 ， 这 个 
模块 将 SQL 历史 执行 计划 记录 到 数据 库 日 志 ， 为 后 
期 的 故障 分 析 、 性 能 优化 提供 了 很 好 的 途径 ， 当 
然 ， 这 个 模块 打开 将 会 一 定 程度 增加 数据 库 负担 。 








16.4 pg_prewarm 


数据 库 重 局 后 ， 数 据 库 的 绥 存 将 被 清空 ， 如 末 
是 生产 系统 ， 应 用 系统 在 数据 库 重 局 后 的 开始 一 段 
时 间 内 将 会 谈 取 人 硬盘 的 数据 ， 这 对 数据 库 性 能 有 一 
定 影响 ， 特 别 是 处 于 应 用 系统 业务 高 峰 期 时 ， 
PostgreSQL9.4 版 本 之 后 支持 pg_prewarm 扩 展 模 块 ， 
可 以 预先 将 数据 加 载 到 操作 系统 缓存 或 数据 库 绥 存 
中 ， 下 面 举例 说 明 。 


以 postgres 超 级 用 户 登 录 到 目标 库 mydb， 创 建 
pg_prewarm 扩 展 模块 ， 如 下 所 示 : 





[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# CREATE EXTENSION pg_prewarm; 
CREATE EXTENSION 


创建 pg_prewarm 扩 展 后 会 生成 pg_prewarm 函 
数 ， 函 数 语法 如 下 : 


pg9_prewarm(regclass, mode text default 'buffer', fork text def 
first block int8 default null, 
last_block int8 default null) RETURNS int8 


此 函数 返回 成 功 缓存 的 数据 块 数 ， 输 入 参数 有 
i 分 别 为 : 


` fegclass: 需要 缓存 的 数据 库 对 象 ， 可 以 是 表 


.mode: 缓存 的 楼 式 ， 支 持 三 种 缓存 模式 ， 
btefetch 模 式 表 示 将 数据 异步 读 入 操作 系统 缓存 ， 
fread 模式 表示 将 数据 同步 读 入 操作 系统 缓存 ,但 效 
率 要 慢 些 ，buffer 模 式 将 数据 读 入 数据 库 缓 存 。 


:fofk: 此 参数 默认 为 main， 通 常 不 需要 设 
置 。 


.fitst_block: 需要 预 热 的 第 一 个 数据 块 编号 ， 
null 表 示 数 据 库 对 象 的 第 0 个 块 。 


. last_block: 需要 预 热 的 最 后 一 个 数据 块 ， 
null 表 示 预 热 的 数据 库 对 象 的 最 后 一 个 数据 块 。 


在 数据 库 mydb 库 中 创建 一 张 测试 表 t_pre 并 插 
入 200 万 数据 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql mydb pguser 
mydb=> CREATE TABLE t_pre(id int4 PRIMARY KEY, 

info text, 

create time timestamp(0) without time zone); 
CREATE TABLE 


mydb=> INSERT INTO t_pre(id,info,create time) 
SELECT n,n||'_pre',clock _ timestamp() FROM generate series( 
INSERT 0 2000000 


将 表 t_pre 表 数据 缓存 到 数据 库 绥 存 中 ， 如 下 所 


一 < 


个 \: 


mydb=> SELECT pg_prewarm('t_pre', 'buffer"'); 
pg_prewarm 


以 上 代码 返回 12739， 表 示 绥 存 到 数据 库 缓 存 
的 数据 块 ， 这 个 正好 是 表 t_pre 的 数据 块 数 ， 可 查询 
g_class 进 行 验 证 ， 如 下 所 示 : 


mydb=> SELECT relname,relpages FROM pg_class WHERE relname="'t_ 
relname | relpages 


t_pre | 12739 
(1 row) 


relpages 表 示 占用 数据 块 个 数 ， 是 一 个 预 估 
值 ，ANALYZE 命 令 可 以 刷新 此 数据 。 


也 可 以 将 表 数 据 异步 缓存 到 操作 系统 绥 存 中 ， 
如 下 所 示 : 


mydb=> SELECT pg_prewarm( 't_pre'"，'prefetch ' ) ， 
pg_prewarnm 








”将 表 数 据 同 步 缓存 到 操作 系统 缓存 中 ， 如 下 所 
人 外 : 


mydb=> SELECT pg_prewarm( 't_pre'"，'read ' ) ， 
pg_prewarm 





当 生 产 数 据 库 重 局 后 ， 建 议 使 用 pg_prewarm 打 - 
展 模块 将 访问 频 党 的 小 表 绥 存 到 操作 系统 缓存 或 数 
据 库 绥 存 中 ， 减 少数 据 库 压 力 ， 当 内 存 不 够 时 ， 被 
绥 存 的 数据 有 可 能 被 挤 出 ，pg_prewarm 扩 展 模 块 仅 
用 于 数据 库 重 局 后 对 热 表 数据 预 热 ， 不 能 用 来 持久 
化 到 内 存 中 。 


也 有 第 三 方 工具 可 以 将 数据 库 表 数据 绥 存 ， 例 
如 pgfincore 项 目 ， 早 在 PostgreSQL9.4 版 本 前 ， 
pg_prewarm 扩 展 模 块 还 没 出 现时 ， 通 党 使 用 
pgfincore 工 具 ， 这 个 工具 功能 比较 丰富 ， 文 持 将 数 
据 库 表 、 索 引 加 载 到 操作 系统 缓存 ， 也 文 持 将 数据 
从 操作 系统 缓存 中 刷 出 ， 同 时 文 持 得 看 数据 表 被 组 
存 的 情况 ， 项 目地 

















址 : https://github.com/klando/pgfincore 。 


> 注意 ”以 上 演示 pg_prewarm 时 只 将 表 数 据 
进行 了 缓存 ，pg_ptewatm 也 可 以 对 索引 进行 缓存 ， 
生产 系统 对 于 热 表 进行 缓存 时 建议 将 热 表 对 应 的 过 
引 也 进行 缓存 。 


16.5 file _fdw 


file 同人 是 PoRSQU 于 展区 5 介 和 
file fdw 之 前 ， 首 先 介 绍 SQL/MED (SQL 
Management of een Data) 。 


16.5.1 SQL/MED 人 简介 


SQL/MED 是 PostgreSQL 男 一 特色 功能 ， 这 一 
se 
数据 源 数 据 ， 束 像 访问 本 地 库 数 据 一 样 ， 这 和 
Oracle 中 的 dblink 功 能 类 似 ，SQL/MED 示 例如 图 16- 
1 所 示 。 


App 
Server 


< 
PostgreSQL 


file fdw mongodb fdw 
postgres fdw 


a 
7 PostgreSQL 


oracle|fdw mysql fdw 


-i 


图 16-1 SQL/MED 示 例 图 
目前 支持 访问 的 外 部 数据 源 主 要 有 以 下 几 类 : 


文件 : 在 PostgreSQL 数 据 库 中 访问 数据 库 主 
机 文件 ， 文 件 需 具 备 一 定 的 格式 ， 常 见 的 文件 格式 
为 csv 和 和 text。 


` 关系 型 数据 库 : 在 PostgreSQL 数 据 库 中 访问 
远程 的 数据 库 ， 例 如 PostgteSQL、Otacle、 
MySQL、SQL Server 等 。 


" 非 关系 型 数据 库 : MongoDB、Redis、 
Cassandta 等 非 关 系数 据 库 。 


. 大 数据 : Elastic Seatch、 Hadoop 等 。 

这 些 外 部 模块 大 部 分 都 不 属于 PostgreSQL 官方 
维护 ， 由 第 三 方 维护 ， 有 些 模块 还 处 于 测试 阶段 ， 
生产 使 用 时 需要 注意 ， 本 章 将 对 其 中 部 分 数据 源 模 
块 进行 介绍 。 

16.5.2 ”file_fdw 部 署 


本 记 介绍 基 于 文件 的 外 部 数据 源 的 访问 ， 
PostgreSQL 使 用 file_ fdw 外 部 扩展 访问 本 地 文件 ， 文 





件 的 格式 要 求 为 text、csv 或 者 binary。 


使 用 fle_fdw 外 部 扩展 访问 本 地 文件 主要 步 又 
如 下 : 


1) 创建 fe fdw 外 部 扩展 。 


2) 创建 foreign server 外 部 服务 ， 外 部 服务 是 指 
连接 外 部 数据 源 的 连接 信息 。 


3) 设置 本 地 文件 格式 为 file_fdw 可 识别 的 格 


了 








4) 创建 外 部 表 。 


创建 外 部 扩展 通常 需要 超级 权限 ， 使 用 
postgres 超 级 用 户 登 录 到 mydb 创 建 fle_fdw 外 部 扩 
展 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# CREATE EXTENSION file_fdw; 
CREATE EXTENSION 


创建 基于 fle_fdw 的 外 部 服务 fs_file， 如 下 所 
和 修 : 


mydb=# CREATE SERVER fs_file FOREIGN DATA WRAPPER file_fdw; 
CREATE SERVER 


创建 外 部 服务 时 需 指定 外 部 服务 的 名 称 ， 这 里 
名 称 为 fs_file， 外 部 服务 创建 完成 之 后 ， 可 通过 \des 
元 命令 租 询 当 前 库 中 已 创建 的 外 部 服务 ， 如 下 所 
和 修 : 





mydb=# \des 
List of foreign servers 
J Owner | Foreign-data wrapper 
fs_file | postgres | file_fdw 
(1 row) 





的 如 
朱 外 部 级 据 源 征 级 据 库 ， 通常 包含 了 数据 库 的 IP、 
疹 口 号 、 数据 库 名 称 称 等 信息 ' 心 ,， me 
数据 源 ， 因 此 没有 这 些 信息 。 


创建 文件 /home/postgres/script/filel.txt， 写 入 以 
下 内 容 ， 使 用 tab 刍 分隔: 


Dh 
(es) 





定义 基于 fle_fdw 的 外 部 表 ， 如 下 所 示 : 


mydb=# CREATE FOREIGN TABLE ft filel( 
id int4, 
flag text 
) SERVER fs_file 
OPTIONS (filename '/home/postgres/script/file1.txt',fo 
CREATE FOREIGN TABLE 


OPTIONS 是 指 fle_fdw 外 部 扩展 的 选项 ， 与 fdw 
支持 的 选项 不 同 ，file_fdw 的 主要 选项 如 下 : 





. filename: 指定 要 访问 的 文件 路 径 和 名 称 ， 
需 指 定 文件 的 绝对 路 径 。 


` format: 指定 文件 的 格式 ， 支 持 的 格式 为 
text、csv、binary， 默 认为 text。 


. headet: 指定 文件 是 否 包 含 字 段 名 称 行 ， 
选项 仅 对 csv 格 式 有 效 ， 通 常 S 数据 0 
文件 时 才 会 使 用 此 选项 。 


. delimiter: 设置 字段 的 分 隔 符 ，text 格 式 的 文 
件 字 段 分 隔 符 默认 为 tab 键 。 


encoding: 设置 文件 的 编码 。 


以 上 选项 除了 也 ename 先 先 项 外 ， 其 他 选项 和 
copy 命 令 一 致 。 





外 部 表 定 义 完 成 后 ， 在 数据 库 中 像 访 问 本 地 表 
一 样 访问 外 部 表 即 可 ， 如 下 所 示 : 


mydb=# SELECT * FROM ft_filel1 ; 


id | flag 
i 站 
1 |a 
2 | b 

(2 rows ) 


外 部 表 实 质 上 不 存储 数据 ， 只 是 指 癌 外 部 数据 
源 的 一 个 链接 ， 可 理解 成 操作 系统 层面 的 软 链接 ， 
数据 依旧 存储 在 外 部 数据 源 中 。 通 过 file_fdw 外 部 
扩 人 问 数据 库 表 一 样 访 
问 外 部 文件 。 


目前 基于 file_ fdw 的 外 部 表 仅 支持 只 读 ， 不 文 
持 INSERT/UPDATE/DELETE 操 作 。 


创建 完 外 部 表 后 ， 可 通过 \det 元 命令 查看 当前 
数据 库 中 的 外 部 表 列 表 ， 如 下 所 示 : 








mydb=# \det 
List of foreign tables 
Schema | Table | Server 
EV a ee 


public | ft _ filel | fs_file 
(1 row) 


16.5.3 ”使 用 file_ fdw 分 析 数 据 库 日 志 


为 一 个 fle_fdw 上 典型 示例 为 通过 外 部 表 访 问 
PostgreSQL 数 据 库 的 csv 日 志 ， 方 便 数据 库 日 志 分 
析 ， 首 先 设 置 数 据 库 日 志 为 csv 格 式 ， 设 置 
postgresql.conf 以 下 参数 ， 如 下 所 示 : 


log_destination = 'csvlog' 

logging_collector = on 

log_directory = 'pg_log' 

log_filename = 'postgresql-%Y-%m-%d_ %H%M%S .10g' 


主要 人 设 首 以 上 日 志 相 关 参 数 ， 参 数 解 释 如 下 : 


` log_destination: 设置 postgresql 数 据 库 日 志 输 
出 方式 ， 支 持 stdefrr、csvlog、syslog 方 式 ， 这 里 设置 
成 csv 格 式 (csv 格 式 需 设置 logpging_collector 参 数 为 


on) 。 


` logging _collectot: 此 参数 设置 成 on 将 开启 日 
志 收 集 后 台 进 程 ， 用 于 将 输出 到 stdett 标 准 错误 的 信 
息 重 定向 到 PostegteSQL 日 志文 件 ， 建 议 开启 此 参 
数 ， 此 参数 调整 后 需 重 启 数 据 库 生效 。 


* log_directory: 当 logging_collector 参 数 开 启 
时 ， 设 置 PostereSQL 日 志文 件 的 目录 ， 可 以 设置 绝 
对 路 径 或 相对 路 径 ， 相 对 路 径 位 于 目录 $PGDATA 


下 。 


* log_filename: el 
时 ， 设 置 PostereSQL 日 志文 件 的 命名 方式 ， 这 里 使 
用 默认 的 配置 即 可 。 


$PGDATA/pg_log/ 目 录 下 产生 了 不 少数 据 库 日 
志 ， 我 们 从 其 中 一 个 日 志文 件 中 查看 日 志 数 据 ， 例 
A 了 以 





2017-10-26 14:29:16.298 CST,"postgres", "mydb",18701,"[locall]", 





可 以 通过 外 部 表 访 问 PostgreSQL 的 日 志 。 创 建 
外 部 表 ， 如 下 所 示 : 





CREATE FOREIGN TABLE ft_pglog ( 
Log_time timestamp(0) without time zone, 
user_name text, 
database_ name text, 
process_id integer， 
connection_from text, 
session_id text, 
session_line num bigint, 
command_tag text, 
session_start_time timestamp with time zone, 
virtual transaction_id text, 
transaction_id bigint, 
error_severity text, 
sql_state code text, 


message text, 
detail text, 
hint text, 
internal_query text, 
internal_query_pos integer， 
context text, 
query text, 
duery_pos integer, 
location text, 
application_name text 
) SERVER fs_file 
OPTIONS ( filename '/database/pg10/pg_root/pg_log/postgresql-2 








以 上 OPTIONS 选 项 指定 日 志文 件 的 路 径 和 各 
称 ， 并 且 格 式 为 csv 格 式 ， 碍 看 其 中 一 条 日 志 ， 如 
下 所 示 : 





mydb=# SELECT * FROM ft_pglog WHERE error_severity='ERROR' ANC 


-[ RECORD 1 ]---------- ee 
lo0g_time 2017-10-26 14:29:16 
user_name postgres 

database_name mydb 

process_id 18701 

connection_from [locall] 

session_id 59f1762a.490d 
session_line_num 31 

command_tag DELETE 
session_start_time 2017-10-27 03:44:10+08 
virtual transaction_id 5/16770 


error_severity ERROR 

sql_state_code 0A000 

message cannot delete from foreign table "ft_ 
detail 

hint 


internal_query 
internal_ query_pos 
context 

duery 

duery_pos 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
transaction_id | 9 

| 
| 
| 
| 
| 
| 
| 
| 
| DELETE FROM ft _ file1 ， 
| 


Location 
application_name | psql 


刚好 是 前 面 postgresql-2017-10-26_000000.csv 日 
志文 件 中 的 这 条 日 志 信息 ， 通 过 外 部 表 ft_pglog 很 
容易 对 数据 库 日 志 进 行 分 析 。 





16.6 postgres_fdw 


上 一 节 介 绍 了 fle_fdw 扩 展 ， 通 过 此 扩展 
PostgreSQL 可 以 访问 文本 或 csv 格 式 的 文件 ， 这 一 市 
将 介绍 postgres_fdw， 通 过 此 扩展 可 以 访问 远程 
PostgreSQL 数 据 库 表 ， 类 似 Oracle 的 dblink。 





16.6.1 postgres_fdw 部 团 


本 节 将 演示 postgres_fdw 的 部 署 ， 测 试 环境 见 
表 16-2。 
表 10-2 二 fdw 实 验 环境 


计划 在 pghost1 上 的 mydb 库 创建 postgres_fdw 外 
部 扩展 ， 使 得 pghost1 主 机 上 的 mydb 库 通过 外 部 表 
访问 远程 pghost3 主 机 上 des 库 中 的 表 。 

postgres_fdw 外 部 表 部 团 的 主要 步 怠 如 下 : 


1) 创建 postgres_fdw 外 部 扩展 。 











2) 创建 foreign server 外 部 服务 ， 外 部 服务 是 指 
连接 外 部 数据 源 的 连接 信息 。 


3) 创建 映射 用 户 ， 了 映射 用 户 指 定 了 访问 外 部 
表 的 本 地 用 户 和 远程 用 户 信息 。 


4) 创建 外 部 表 ， 外 部 表 的 表 定 义 建议 和 远程 
表 一 致 。 


在 pghost1l 上 以 postgres 超 级 用 户 登 录 mydb 库 创 
建 postgres_fdw 扩 展 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# CREATE EXTENSION postgres_fdw; 
CREATE EXTENSION 


创建 外 部 扩展 需要 超级 权限 ， 普 通用 户 使 用 
postgres_fdw 需 要 单独 赋 权 ， 计 划 以 pguser 普 通用 户 
使 用 postgres_fdw 外 部 扩展 ， 因 此 需要 给 pguser 用 户 
赋 postgres_fdw 的 使 用 权限 ， 如 下 所 示 : 





mydb=# GRANT USAGE ON FOREIGN DATA WRAPPER postgres_ fdw TO pgu 
GRANT 





之 后 以 pguser 用 户 登录 mydb 库 创建 外 部 服务 ， 


如 下 所 示 : 


mydb=> \c mydb pguser 
You are now connected to database "mydb" as user "pguser". 


mydb=> CREATE SERVER fs_postgres_pghost3 


FOREIGN DATA WRAPPER postgres_fdw OPTIONS (host 'pghost3', 
CREATE SERVER 


以 上 定义 了 名 称 为 fs_postgres_pghost3 的 外 部 服 
务 ，OPTIONS 设 置 远程 PostgreSQL 数 据 源 连接 选 
项 ， 通 常 为 主机 名 、 端 口号 、 数 据 库 名 等 。 


之 后 创建 映射 用 户 ， 需 要 给 外 部 服务 创建 映射 
用 户 ， 如 下 所 示 : 


mydb=> CREATE USER MAPPING FOR pguser 
SERVER fs_postgres_pghost3 OPTIONS (user 'pguser', passwor 
CREATE USER MAPPING 





FOR 后 面 接 的 用 户 为 本 地 的 数据 库 用 户 ， 
OPTIONS 里 接 的 是 远程 PostgreSQL 数 据 库 的 用 户 和 
密 僻 ， 也 吏 是 说 ， 外 部 服务 定义 了 远程 PostgreSQL 
数据 库 的 卫 、 问 口 、 数 据 库 连 接 信息 ， 映 射 用 刀 指 
定 了 连接 远程 PostgreSQL 数 据 库 的 用 户 名 、 密 公信 


4 oO 








之 后 在 pghost4 主 机 上 的 des 库 中 创建 一 张 测试 


表 ， 并 插入 测试 数据 ， 如 下 所 示 : 


[des@pghost3 ~]$ psql des pguser 
des=> CREATE TABLE t_fdwi (id int4,info text); 
CREATE TABLE 


des=> INSERT INTO t_fdwi (id, info ) VALUES (1,'a'),('2','b'); 
INSERT © 2 





在 pghost1 上 创建 外 部 表 ， 如 下 所 示 : 





mydb=> CREATE FOREIGN TABLE ft t fdwi ( 
id int4, 
info text 
) SERVER fs_postgres_pghost3 OPTIONS (Schema_name 'pguser', ta 





OPTIONS 选 项 中 的 schema_name 指 远程 库 的 模 
式 名 ，table_name 指 远程 库 的 表 名 。 


以 上 就 完成 了 postgres_fdw 外 部 表 的 部 署 ， 查 
询 外 部 表 ft_t fdw1， 如 下 所 示 : 





mydb=> SELECT * FROM ft t fdwi ， 
ERROR: could not connect to server "fs_postgres_pghost3" 
DETAIL: FATAL: no pg_hba.conf entry for host "20.26.28.74", 





以 上 错误 报 pg_hba.conf 区 件 中 没有 相应 访问 策 
略 ， 在 pghost3 的 $4PGDATA/pg_hba.conf 文 件 中 添加 
访问 策略 即 可 ， 如 下 所 示 : 


host des pguser 20.26.28.0/24 md5 


之 后 执行 pg_ctl reload 命 令 使 配置 生效 。 


pghostl1 上 再 次 查询 外 部 表 ft_t_fdw1 测 试 ， 如 下 
所 示 : 


mydb=> SELECT * FROM ft t fdwl ; 


id | info 
和 十 ------ 
1|a 
2 | b 

(2 rows) 


可 见 ， 从 pghostl 主 机 上 的 mydb 库 已 成 功 访问 
远程 主机 pghost3 上 des 库 中 的 数据 。 


16.6.2 ”postgres_fdw 外 部 表 文 持 写 操作 


postgres_fdw 外 部 表 最 早 只 文 持 只 旋 ， 
PostgreSQL9.3 版 本 开始 文 持 可 写 ， 这 里 演示 
postgres_fdw 对 写 操 作 的 文 持 。 


在 pghost1 上 对 外 部 表 进 行 数据 插入 测试 ， 如 下 
所 示 : 





mydb=> INSERT INTO ft _t fdwi (id, info) VALUES (3,'c'); 


INSERT © 1 
mydb=> SELECT * FROM ft_t_fdwi WHERE id=3; 


id | info 
ee 芝 半 沁 全 证 语 启 宫 
3 | < 

(1 row) 





在 pghost3 远 程 库 des 上 进行 验证 ， 如 下 所 示 : 





des=> SELECT * FROM t_fdwi WHERE ID=3; 


id | info 
a RR 
3 | < 

(1 row) 





可 见 ， 新 的 数据 已 写 入 远程 库 des 中 。 


接 下 来 测试 更 新 操作 ， 在 pghost1 对 外 部 表 进 行 
更 新 操作 ， 如 下 所 示 : 





mydb=> UPDATE ft_t fdwl SET info='ccc' WHERE ID=3， 
UPDATE 1 
mydb=> SELECT * FROM ft t fdw1 WHERE id=3,; 

id | info 





在 pghost3 远 程 库 des 上 进行 验证 ， 如 下 所 示 : 





des=> SELECT * FROM t_fdwi WHERE ID=3， 
id | info 


可 见 数据 已 更 新 。 


最 后 测试 DELETE 操 作 ， 在 pghost1 上 的 外 部 表 
上 执行 DELETE， 如 下 所 示 : 


mydb=> DELETE FROM ft _t _ fdw1 WHERE id=3; 
DELETE 1 


在 pghost3 远 程 库 des 上 进行 验证 ， 如 下 所 示 : 


des=> SELECT * FROM t_ fdw1 WHERE ID=3， 
id | info 

Te ES 

(9 rows ) 


可 见 数 据 已 删除 。 


2 注意 postegres_fdw 支 持 外 部 表 可 写 有 两 
个 条 件 ， 首 先是 创建 映射 用 户 时 配置 的 远程 数据 库 
用 户 需 要 对 远程 表 有 写 的 权限 ， 其 次 是 PostgreSQL 
数据 库 版 本 需 9.3 或 以 上 。 


16.6.3 ”postgres_fdw 文 持 聚 合 函 数 下 推 


PostgreSQL10 版 本 在 postgres_fdw 扩 展 模 块 中 
狐 增 了 一 个 非常 给 力 的 特性 ， 可 以 将 聚合 、 关 联 操 
作 下 推 到 远程 PostgreSQL 数 据 库 进 行 ， 而 之 前 的 版 
本 是 将 外 部 表 相 应 的 远程 数据 全 部 取 到 本 地 再 做 聚 
合 ，10 版 本 的 这 个 新 特性 大 幅度 减少 了 从 远程 库 传 
送 到 本 地 库 的 数据 量 ， 提 升 了 postgres_fdw 外 部 表 
和 的 性 能 ， 本 小 节 测 试 10 版 本 这 一 新 特 


测试 一 : 在 PostgreSQL10 版 本 进行 测试 


在 pghost3 主 机 的 des 库 上 创建 测试 表 并 插入 测 
试 数据 ， 如 下 所 示 : 


[des@pghost3 ~]$ psql des pguser 
psql (10.0) 
Type "help" for help. 


des=> CREATE TABLE t_fdw2(id int4,flag int4); 
CREATE TABLE 


des=> INSERT INTO t_fdw2(id,flag) SELECT n,mod(n,3) FROM gener 
INSERT © 100000 


” ”在 pghost1 上 的 mydb 库 创建 外 部 表 ， 如 下 所 
人 小 : 


mydb=> CREATE FOREIGN TABLE ft t fdw2 ( 
Id int4, 
flag int4 


) SERVER fs_postgres_pghost3 OPTIONS (Schema_name 'pguser', tea 





聚合 查询 ， 执 行 如 下 SQL: 





mydb=> SELECT flag,count(*) FROM ft_t fdw2 GROUP BY flag ORDER 
flag | count 





执行 计划 如 下 所 示 : 





mydb=> EXPLAIN (ANALYZE on,VERBOSE on) 
SELECT flag,count(*) FROM ft_t_ fdw2 GROUP BY flag ORDER BY 
QUERY PLAN 
Sort (cost=167.52..168.02 rows=200 width=12) (actual time 
Output: flag, (count(*)) 
Sort Key: ft_t_fdw2.flag 
Sort Method: quicksort Memory: 25kB 
-> Foreign Scan (cost=114.62..159.88 rows=200 width= 
Output: flag, (count(*)) 
Relations: Aggregate on (pguser.ft_t_fdw2) 
Remote SQL: SELECT flag, count(*) FROM pguser. 
Planning time: 0.109 ms 
Execution time: 19.496 ms 
(10 rows) 





评 细 俘 看 以 上 执行 计划 ， 执 行 计划 主要 分 为 以 
下 几 个 阶段 : 


. Remote SQL: 远程 库 上 的 执行 SQL， 此 SQL 
为 聚合 查询 SQL。 


Relation Aggregate: 在 外 部 表 上 执行 聚合 操 


di 


“ Fotreign Scan: “rows 二 3” 说 明 Foreign Scan 阶 
段 仅 返 回 三 条 记录 ， 同 时 这 也 说 明 聚 合 操 作 是 在 远 


程 库 执行 ， 仅 返回 有 聚合 操作 后 的 数据 。 
Sort: 排序 。 


以 上 SQL 执行 时 间 为 19.496ms， 从 以 上 执行 计 
划 可 以 看 出 ， 在 远程 库 执行 的 SQL 为 : 


Remote SQL: SELECT flag, count(*) FROM pguser.t_fdw2 GROUP BY 


这 说 明 聚 合 操作 是 在 远程 库 进 行 ， 并 没有 将 远 
程 库 数 据 全 部 拉 到 本 地 库 做 聚合 


3 和 口 o 





测试 二 : 在 PostgreSQL9.6 版 本 进行 测试 
接 痢 在 9.6 版 本 进行 测试 ， 测 试 环境 见 表 16-3。 


表 16-3 Posteres_fdw 实 验 环境 





PostgreSQL9.6 的 安装 略 ，postgres_fdw 的 部 署 
和 16.6.1 节 的 部 着 一 致 ， 聚 合 吾 询 执行 计划 如 下 所 
人 A: 





mydb=> EXPLAIN (ANALYZE on,VERBOSE on) 
SELECT flag,count(*) FROM ft_t_fdw2 GROUP BY flag ORDE 
QUERY PLAN 
Sort (cost=324.43..324.93 rows=200 width=12) (actual time=354 
Output: flag, (count(*)) 
Sort Key: ft_t_fdw2.flag 
Sort Method: quicksort Memory: 25kB 
-> HashAggregate (cost=314.78..316.78 rows=200 width=12) 
Output: flag, count(*) 
Group Key: ft t fdw2.flag 
-> Foreign Scan on pguser .ft t fdw2 (cost=100.00..28 
Output: id, flag 
Remote SQL: SELECT flag FROM pguser.t_fdw2 
Planning time: 0.152 ms 
Execution time: 355.649 ms 
(12 rows) 





以 上 执行 计划 执行 时 间 为 355 守 秒 ， 相 比 
PostgreSQL10 性 能 慢 了 17 倍 左右 ， 仔 细 分 析 以 上 执 
行 计 划 ，Remote SQL 阶段 的 SQL 为 : 





Remote SQL: SELECT flag FROM pguser.t_ fdw2 





结合 执行 计划 中 的 Foreign 
Scan (rows=100000)〉 ， 说 明 将 外 部 表 对 应 的 远程 
数据 全 部 取 到 了 pghost1， 之 后 在 pghost1 上 进行 聚 
合 统 计 操 作 。 


而 PostgreSQL10 版 本 此 SQL 执 行 计 划 中 Remote 
SQL 阶 段 的 SQL 为 : 


Remote SQL: SELECT flag, count(*) FROM pguser.t_fdw2 GROUP BY 


从 这 个 示例 中 很 容易 理解 PostgreSQL10 的 这 一 
新 特性 ， 即 postgres_fdw 支 持 聚 合 函 数 下 推 到 远程 
库 ， 提 升 了 外 部 表 的 查询 性 能 。 





16./ Citus 


Citus 能 够 横向 扩展 多 租户 〈B2B) 数据 库 ， 或 
构建 实时 应 用 程序 。Citus 通 过 使 用 分 片 、 复 制 、 查 
询 并 行 化 扩展 PostgreSQL 跨 服务 器 来 实现 这 一 点 。 
它 是 以 前 的 开源 扩展 pg_shard 的 升级 版 本 ， 目 前 有 
企业 版 和 社区 版 本 ， 本 市 主要 介绍 Citus 特 性 、 安 
装 、 管 理 、 创 建 分 布 表 、 参 数 配 置 等 方面 。 














16.7.1 ”Citus 特 性 


1. 业 务 场 景 与 数据 分 布 


分 布 式 数据 建 模 是 指 如 何在 多 机 器 数据 库 集群 
中 的 市 点 之 间 分 配 信息 ， 并 电 效 查询 。 有 一 个 很 好 
理解 的 分 布 式 数据 库 设 计 权 衡 的 常见 用 例 。Citus 使 
用 每 个 表 中 的 列 来 确定 如 何在 可 用 的 分 片 之 间 分 配 
其 行 。 特 别 当 数据 被 加 载 到 表 中 时 ，Citus 将 分 配 列 
用 作 哈 布 键 ， 以 将 每 行 分 配给 分 片 。 数 据 库 管 理 员 
选择 每 个 表 的 分 友 列 。 因 此 ， 分 布 式 数据 建 模 的 主 
要 任务 是 选择 最 佳 的 数据 表 划 分 及 其 分 布 列 ， 以 适 
应 应 用 程序 捷 需 的 碍 询 。 


2. 业 务 场景 与 数据 模型 

















Citus 适 合 两 种 典型 的 应 用 场景 ， 这 两 种 典型 的 
应 用 场景 对 应 两 种 数据 模型 : 多 租户 应 用 程序 
(Multi-tenant Application) 和 实时 分 析 (Real-time 
Analytics) 。 


3. 多 租户 


此 用 例 适 用 于 为 其 他 公司 、 账 户 或 组 织 捉 供 服 
务 的 B2B 应 用 程序 。 例 如 ， 这 个 应 用 程序 可 能 是 一 
个 网 站 ， 它 为 其 他 企业 提供 商店 前 痢 、 数 字 膏 销 解 
决 方案 或 销售 自动 化 工具 。 使 用 多 租户 架构 进行 水 
平 缩放 并 没有 租户 数量 限制 ， 此 外 ，Citus 的 分 万 侈 
许 单 个 节点 容纳 多 个 租户 ， 从 而 提高 硬件 利用 率 。 


4. 实 时 分 析 


实时 和 多 租户 模式 之 间 的 选择 取决 于 应 用 的 需 
求 。 实 时 模型 允许 数据 库 获取 大 量 的 传 入 数据 ， 在 
这 种 用 例 中 ， 应 用 程序 需要 大 量 的 并 行 性 ， 协 调 数 
百 个 内 核 ， 以 便 快速 统计 但 询 结 果 。 这 种 架构 通常 
只 有 几 个 表格 ， 通 津 以 设备 、 站 所 或 用 户 事 件 的 大 
表 为 中 心 。 它 处 理 大 容量 读 写 ， 上 其 有 相对 简单 但 计 
算 密集 的 查找。 


























16.7.2 ”Citus 安 装 


从 yum 源 安装 ， 如 下 所 示 : 





# 首先 安装 citus 的 yum 源 
curl https://install.citusdata.com/community/rpm.sh | sudo bas 
sudo yum install -y citus72_10 





配置 环境 变量 ， 如 下 所 示 : 





sudo su - postgres 
export PATH=$PATH:/usr/pgsql-10/bin 





创建 数据 目录 ， 如 下 所 示 : 





mkdir -p /pgdata/citus _ cluster/coordinator /pgdata/citus_clust 





实例 化 数据 目录 ， 如 下 所 示 : 





/usr/pgsql-10/bin/initdb -D /pgdata/citus cluster/coordinator/ 
/usr/pgsql-10/bin/initdb -D /pgdata/citus cluster/workeri1/ 
/usr/pgsql-10/bin/initdb -D /pgdata/citus cluster/worker2/ 





修改 postgresql.conf 配 置 ， 如 下 所 示 : 





-- Shared preload libraries = 'citus' 

echo "shared preload libraries = 'citus'" >> /pgdata/citus clu 
echo "shared preload libraries = 'citus'" >> /pgdata/citus clu 
echo "shared preload libraries = 'citus'" >> /pgdata/citus clu 


这 里 需要 注意 的 一 点 是 ， 如 采 shared preload 
libraries 的 项 不 止 一 个 ， 需 要 把 citus 放 置 在 第 一 位 ， 
个 则 会 有 如 下 的 错误 : 





FATAL : Citus has to be loaded first 
HINT: Place citus at the beginning of shared_preJload_ libraries 





局 动 所 有 节操 ， 如 下 所 示 : 





/usr/pgsql-10/bin/pg_ctl1 -D /pgdata/citus cluster/coordinator 
/usr/pgsql-10/bin/pg_ctl1 -D /pgdata/citus cluster/worker1 -0 " 
/usr/pgsql-10/bin/pg_ctl1 -D /pgdata/citus cluster/worker2 -0 " 





在 Coordinator 中 创建 数据 库 ， 如 下 上 所 示 : 





/usr/pgsql-10/bin/psql -p 9700 postgres -c "CREATE DATABASE my 
NOTICE: Citus partially supports CREATE DATABASE for distribu 
DETAIL: Citus does not propagate CREATE DATABASE command to w 
HINT: You can manually create a database and its extensions c 
CREATE DATABASE 





在 Coordinator 中 执行 创建 数据 库 命令 时 ， 只 能 

在 Coordinator 一 个 节点 中 创建 ， 因 此 还 需要 在 每 个 
Worker 市 点 中 进行 创建 。 接 下 来 我 们 在 每 个 Worker 
节点 分 别 创建 数据 库 ， 并 且 在 新 创建 的 数据 库 中 创 


建 Citus Extension 。 


在 Worker 节 点 中 创建 数据 库 ， 如 下 所 示 : 





/usr/pgsql-10/bin/psql -p 9701 postgres -c "CREATE DATABASE my 
/usr/pgsql-10/bin/psql -p 9702 postgres -c "CREATE DATABASE my 





在 每 个 节点 中 创建 Citus Extension， 如 下 所 


一 


仆 : 





/usr/pgsql-10/bin/psql -p 9700 mydb -c "CREATE EXTENSION citus 
/usr/pgsql-10/bin/psql -p 9701 mydb -c "CREATE EXTENSION citus 
/usr/pgsql-10/bin/psql -p 9702 mydb -c "CREATE EXTENSION citus 





16.7.3 ”Citus 管 理 


下 面 介绍 在 Citus 和 集群 中 添加 Work 节 点 、 别 除 
WorIk 节 点 、 禁 用 Work 节 点 、 启 用 Work 节 点 。 


在 Citus 集 群 中 添加 Worker 节 点 ， 如 下 所 示 : 





/usr/pgsql-10/bin/psql -p 9700 mydb -c "SELECT * FROM master_a 
nodeid | groupid | nodename | nodeport | noderack | hasmet 
ee TO 
1 | 1 | 127.0.0.1 | 9701 | default | f 
(1 row) 
/usr/pgsql-10/bin/psql -p 9700 mydb -c "SELECT * FROM master_a 
nodeid | groupid | nodename | nodeport | noderack | hasmet 
i wT 
2 | 2 | 127.0.0.1 | 9702 | default | Ff 


从 Citus 集 群 中 剔除 Worker 节 点 ， 如 下 所 示 ; 





UPDATE pg_dist_shard placement set shardstate = 3 where nodena 
SELECT master_remove _ node('127.0.0.1', 9702); 
master_remove_node 
(1 row) 
SELECT * FROM master_get active worker_nodes();，; 
node_name | node port u 
i ER 
127.0.0.1 | 9701 
(1 row) 








禁用 Worker 节 点 ， 如 下 所 示 : 





SELECT master_disable node('127.0.0.1','9702')，; 
NOTICE: Node 127.0.0.1:9702 has active shard placements. Some 
master_disable_node 


(1 row) 





茶 用 Worker 之 后 ， 对 于 公共 引用 表 的 碍 询 不 用 
影响 ， 但 对 于 分 布 式 表 ， 则 不 能 正和 党 工作 。 会 输出 
以 下 错误 信息 : 





ERROR: failed to assign 2 task(s) to worker nodes 








这 时 就 按照 禁用 Worker 时 给 出 的 提示 启用 
Worker 即 可 。 局 用 Worker 节 点 ， 如 下 上 所 示 : 





SELECT master_activate_ node('127.0.0.1', 9702); 





在 Coordinator 闻 点 验证 Worker 闻 点 ， 如 下 所 


一 


修 : 





/usr/pgsql-10/bin/psql -p 9700 mydb -c ”SELECT * FROM master_ 
node_name | node_port 


127.0.0.1 | 9701 
127.0.0.1 | 9702 
(2 rows) 





16.7.4 创建 分 布 表 


在 Coordinator 中 创建 表 ， 如 下 所 示 : 





CREATE TABLE table name (人 
user_id integer NOT NULL, 
name character varying(32) 


) 





在 Coordinator 中 创建 分 片 ， 如 下 所 示 : 





mydb=# SELECT create distributed table('table name', 'user_id' 
create_distributed_table 





默认 的 ， 使 用 哈 希 的 分 布 方式 ，Citus 集 群 会 创 
建 32 个 分 乒 ， 用 户 需 要 根据 实际 情况 进行 调整 。 
Citus 有 很 多 的 配置 选项 ， 其 中 一 个 选项 是 配置 分 厂 
的 总 数量 ， 建 议 配置 为 CPU 核 数 x 希 望 每 个 物理 节 
ee 配置 分 片 数 量 的 代码 如 
下 坟 不 : 








set citus.shard count = 64; 


公共 引用 表 适 合 在 每 个 Worker 节 点 上 都 可 能 需 
要 运行 join 命 令 的 小 表 ， 它 通常 是 小 型 非 分 区 表 。 
在 Coordinator 节 点 创建 好 原始 表 之 后 ， 执 行 
create_reference_table 函 数 ， 将 它 创 建 为 公共 引用 
表 。 创 建 完 成 后 可 以 看 到 在 每 一 个 Worker 市 点 上 ， 
都 会 有 这 张 表 存 在 ， 如 下 所 示 : 





CREATE TABLE rt(id serial primary key,ival int); 
SELECT create_ reference_ table('rt'); 


对 于 已 经 存在 的 分 片 为 1 的 表 ， 如 采 硕 望 将 它 
转换 为 公共 引用 表 ， 可 以 使 用 
Upgrade _to_reference_table 这 个 API， 详 细 的 用 法 请 
合并 文档 说 明 。 


16.7.5 ”Citus 参 数 配 置 


citus.shard_replication_factor (integet) 


这 个 参数 用 来 设置 分 片 数 据 的 副本 数量 ， 默 认 
为 1。 例 如 两 个 物理 节点 ， 将 此 参数 设置 为 2， 那 么 
在 每 个 物理 节点 上 会 分 布 同 样 的 数据 。 








citus.shard_count (integer) 


设置 了 分 片 的 数量 ， 默 认 是 32， 可 以 根据 实际 
需求 进行 调整 ， 对 奇数 偶数 也 没有 要 求 ， 如 果 物 理 
节点 数 是 偶数 ， 但 是 将 此 参数 设置 为 奇数 ，Citus 会 
根据 汪 加 Worker 贡 点 的 顺序 ， 依 次 分 发 分 片 。 例 如 
有 两 个 物理 节点 ， 分 片 数 量 设置 为 93， 那么 在 
Workerl1 上 会 有 2 个 分 片 ， 而 Worker 2 上 则 只 会 有 1 个 
sa 





citus.task_executor_type (enum) 


设置 执行 器 类 型 ， 它 有 两 个 选项 : real-time 和 
task-tracker， 默 认为 real-time。real-time 实 时 执行 器 
是 默认 类 型 ， 在 需要 快速 啊 应 涉及 跨 多 个 分 片 的 聚 
合 和 共同 定位 联接 的 查询 时 是 最 佳 的 。task-tracker 
任务 跟踪 器 执行 器 非常 适合 长 时 间 运 行 的 复杂 查 
询 ， 这 些 查 询 需 要 在 worker 闻 点 之 间 进 行 数据 整理 
和 高 效 的 资源 管理 。 


在 Citus 集 群 中 ， 还 需要 重点 关注 postgresql.conf 











中 的 idle in _ transaction session _timeout 参 数 。 


在 Citus 的 Worker 市 点 中 可 能 因为 未 提交 的 事务 
导致 大 量 的 连接 被 占用 ， 导 致 连接 资源 被 耗 斥 。 为 
了 防止 这 种 情况 有 发生， 应当 为 这 个 参数 设置 适当 的 
值 ， 单 位 坚 秒 。 





16.7.6 ”Citus 常 用 功能 


但 看 表 的 大 小 ， 包 括 索 引 的 大 小 ， 如 下 所 示 : 





SELECT pg_size pretty(citus_ total relation_ size('table name':: 





但 看 表 大 小 ， 但 不 包括 索引 的 大 小 ， 如 下 所 


一 < 


外: 





SELECT pg_size pretty(citus_relation size('table name'::regcla 


SELECT pg_size pretty(citus_ table_ size('table name'::regclass) 


伍 看 表 的 分 布 键 和 数据 的 分 布 位 置 ， 用 下 和 面 的 
语句 进行 全 看 ， 如 下 所 示 : 


SELECT column_to_column_name(logicalrelid, partkey) AS dk 
FROM pg_dist_partition 
WHERE logicalrelid='table name'::regclass; 





根据 分 布 键 的 值 ， 找 到 这 个 值 对 应 的 分 片 表 ， 
如 下 所 示 : 





SELECT get_shard_ id for_distribution _ column('table name', DK_v 





创建 分 片 表 的 功能 函数 
create_distributed_table， 如 下 所 示 : 





mydb=# \df+ create_ distributed_ table 
List of functions 


[ RECORD 1 ]------- +--------------------------------------- 
Schema | pg_catalog 
Name | create distributed_ table 
Result data type | void 
Argument data types | table name regclass, distribution_ column 
Type | normal 
Volatility | volatile 
Parallel | unsafe 
Owner | postgres 
Security | invoker 
Access privileges | 
Language | c 
Source code | create distributed_ table 
Description | creates a distributed table 





但 看 表 分 布 类 型 如 下 所 示 : 





mydb=# \dT+ citus.distribution_type 
List of data types 


-[ RECORD 1 ]----- +------------------------ 
Schema | citus 

Name | citus,distribution type 
Internal name | distribution type 


Size | 4 


Elements | hash + 
| range + 
| append 

Owner | postgres 

Access privileges | 

Description | 


默认 情况 下 ，Citus 中 但 看 执行 计划 会 省 略 大 部 
分 不 同 节 点 的 相同 的 计划 ， 如 宋 想 查看 完整 的 得 询 
计划 ， 可 以 在 会 话 中 设置 ， 如 下 所 示 : 











SET citus.explain all tasks = 'TRUE'; 


DDL、 维 护 任 务 和 Citus 的 限制 ALTER TABLE 
ADD COLUMN、 ALTER COLUMN、 DROP 
COLUMN、 ALTER COLUMN TYPE、 RENAME 
COLUMN， 这 些 操作 都 是 与 PostgreSQL 完 全 兼容 
的 ， 如 下 所 示 : 











ALTER TABLE tb]l ADD COLUMN col INT， 
NOTICE: Using one-phase commit for distributed DDL commands HI 


默认 情况 下 ，Citus 使 用 一 阶段 提交 协议 执行 
DDL， 为 了 更 安全 ， 可 以 设置 两 阶段 提交 执行 
DDL， 如 下 所 示 


SET citus.multi shard_ commit protocol TO '2pc'; 
ALTER TABLE tb]l ADD COLUMN col INT; 


ALTER TABLE test ALTER COLUMN ival3 SET DEFAULT 工 ; 


在 PostgreSQL 中 创建 索引 可 以 省 略 索引 名 称 ， 
由 系统 自动 为 索引 命名 ， 但 在 Citus 中 不 文 持 目 动 为 
索引 命名 ， 所 以 在 创建 索引 时 需要 明确 地 加 上 索引 
的 名 称 ， 人 否则 会 抛 出 如 下 错误 : 


ERROR: creating index without a name on a distributed table is 


创建 索引 和 PostgreSQL 是 一 样 的 ， 如 下 所 示 : 


CREATE INDEX CONCURRENTLY idx_name ON table name (col1...col_n 


在 citus 中 ， 只 能 在 创建 分 区 表 之 前 创建 唯一 索 
引 和 唯一 约束 ， 这 一 点 一 定 要 注意 ， 等 数据 都 已 经 
入 库 再 想 创建 唯一 索引 就 不 行 了 ， 非 空 约束 则 可 以 
在 分 配 表 之 后 再 创建 。 


删除 索引 ， 如 下 所 示 : 


DROP INDEX umch_user_id_ name; 
NOTICE: Using one-phase commit for distributed DDL commands HI 


执行 VACUUM 和 ANALYZE， 如 下 所 示 : 


VACUUM table name; 
ANALYZE table name; 


在 Citus 中 不 支持 VERBOSE 语 法 ， 如 果 需 要 定 
时 的 VACUUM 脚本 需要 稍 加 注意 ， 如 下 : 


ERROR : the VERBOSE option is currently unsupported in distribu 


使 用 Citus 并 不 影响 使 用 标准 的 PostgreSQL 
Extensions 和 数据 类 型 ， 例 如 PostGIS、hll、jsonb 
等 ， 有 两 点 需要 注意 : 


在 shated_pteload_libtraties 中 要 将 citus 设 置 为 
第 


` 在 所 有 的 Coordinator 和 Worket 节 点 上 安装 这 
些 扩 展 ，Citus 不 会 自动 进行 分 发 。 


要 升级 小 版 本 ， 可 以 通过 指定 包 的 版 本 进行 小 
版 本 升级 ， 如 下 所 示 : 


yum --showduplicates list citus72_ 10 
Available Packages 
citus72_10.x86_64 


0.citus-1.el6 citusdata_ community 
citus72_10.x86_64 1. 


Fae: 
7.2.1.citus-1.el6 citusdata_ community 


可 以 看 到 两 个 小 版 本 在 源 里 ， 安 疙 高 版 本 ， 如 


下 所 示 : 


yum install -y 7.2.1.citus-1.el6 


安装 新 的 小 版 本 之 后 重启 PostgreSQL 即 可 。 


也 可 以 通过 yum 和 下 接 升 级 到 最 新 的 小 版 本 ， 如 
不 I 


16.8 本章 小 结 


PostgreSQL 文 持 丰 富 的 扩展 模块 ， 合 理 使 用 扩 - 
展 模块 可 以 完善 PostgreSQL 的 功能 ， 本 章 仅 简 单 介 
绍 和 常用 扩展 模块 。 


建议 优先 使 用 PostgreSQL 内 置 的 扩展 模块 ， 这 
些 模块 经过 了 大 量 测试 并 具备 生产 使 用 条 件 ， 尽 管 
GitHub 或 第 三 方 网 站 上 开源 项 目的 外 部 扩展 提供 强 
大 的 功能 ， 但 这 些 第 三 方 扩 展 模块 不 一 定 经 过 了 充 
分 的 测试 ， 在 生产 环境 使 用 前 需 慎重 ， 并 建议 结合 
实际 应 用 场景 充分 测试 。 














第 17 章 “Oracle 数据 库 迁 移 PostgreSQL 
实践 


上 一 章 介绍 SQL/MED 时 提 到 PostgreSQL 支 持 
外 部 数据 源 ， 主 要 有 文件 、 关 系 型 数据 库 、 非 关系 
型 数据 库 、 大 数据 这 几 类 。 通 过 外 部 表 PostgreSQL 
能 够 直接 访问 外 部 关系 数据 库 ， 残 像 访问 本 地 表 一 
样 ， 当 其 他 类 型 数据 库 迁 移 到 PostgreSQL 时 这 一 特 
性 非常 给 力 ! 本 章 将 结合 生产 案例 介绍 Oracle 数 据 
库 迁 移 到 PostgreSQL 实 践 。 


本 文 的 生产 案例 是 一 个 Oracle 数 据 库 迁 移 
PostgreSQL 的 项 目 ， 利 用 的 核心 技术 为 PostgreSQL 
的 oracle_fdw 外 部 表 ， 迁 移 的 Oracle 数 据 库 是 一 个 小 
型 数据 库 ， 大 概 30 张 表 ， 存 储 过 程 4 个 ， 还 包含 少 
量 序列 和 视图 ， 单 表 数 据 量 最 大 在 30G 左 右 ， 全 库 
数据 量 在 100GB 以 内 ， 尺 管 这 个 数据 库 数 据 量 不 
大 ， 但 承载 着 公司 的 重要 业务 ， 本 章 将 围绕 这 个 案 
例 进 行 介绍 ， 但 不 会 介绍 这 个 迁移 项 目的 各 个 细 
节 ， 主 要 介绍 这 个 迁移 项 目的 思路 。 虽 然 这 个 迁移 
项 目 是 基于 PostgreSQL9.2 或 9.3 进 行 ， 但 迁移 思路 
和 方法 是 一 样 的 。 


本 章 介绍 的 Oracle 迁 移 PostgreSQL 方 法 仅 适 用 











于 中 小 型 数据 库 〈 指 全 库 数 据 库 对 象 数量 、 全 库 数 
气量 在 一 定 范 围 内 ) ， 大 型 数据 库 迁 移 到 
PostgreSQL 需 在 此 方案 的 基础 上 进行 完善 ， 或 考虑 
其 他 方案 。 





17.1 项 目 准 备 


对 于 一 个 生产 系统 答 换 数据 库 的 代价 是 很 大 
的 ， 涉 及 大 量 的 改造 和 测试 工作 ， 主 要 包括 以 下 几 
个 方面 : 


: 数据 库 对 象 迁 移 : 大 部 分 数据 库 系 统 主要 用 
索引 、 序 列 、 存 储 过 程 、 触 八 器 等 对 象 ， 不 

数据 库 的 数据 库 对 象 定 义 不 一 样 ， 这 部 分 工作 主 
se 
作 。 


应 用 代码 改造 : 不 同 数 据 库 的 SQL 语 法 有 差 
异 ， 尽 管 PostgreSQL 的 语法 和 Oracle 很 相似 ， 在 SQL 
语法 和 函数 方面 仍然 存在 一 定 差 异 ， 因 此 SQL 和 应 
用 代码 的 改写 不 可 避免 。 


. 数据 迁移 测试 : 当 数 据 库 对 象 迁 移 工 作 完 成 
之 后 ， 需 进行 数据 迁移 测试 ， 有 具体 为 迁移 Ofacle 数 
据 库 数据 到 PostereSQL， 同 时 验证 迁移 后 数据 的 准 
确 性 ， 例 如 迁移 后 数据 量 是 否 和 Otacle 库 中 的 数据 
量 一 致 ? 是 否 存在 乱码 ? 中 文 是 否 能 正常 显示 ? 


人 EE 测试: ee de 
行 功 能 测试 ， 这 块 工作 主要 由 测试 人 员 进 行 ， 


开发 人 员 、DBA 配 合 。 


` 性 能 测试 : 前 四 步 工 作 完 成 之 后 需要 对 新 系 
统 进行 性 能 测试 ， 包 含 业 务 代码 的 性 能 和 数据 库 性 
能 ， 这 块 工作 主要 由 测试 人 员 进 行 ， 开 发 人 员 、 
DBA 配 合 ， 性 能 测试 对 系统 的 最 高 业务 吞吐 量 进行 
模拟 测试 。 


. 生产 割 接 : 以 上 步骤 完成 之 后 ， 基 本 具备 生 
产 害 接 的 和 条件， 正式 割 接 前 建议 至 少 做 两 次 割 接 演 
练 ， 重 点 记录 数据 迁移 测试 时 间 、 停 服务 时 间 ， 以 
及 验证 整个 迁移 步骤 是 否 有 问题 。 


在 以 上 六 项 改造 工作 中 ，DBA 都 承担 着 重要 的 
角色 。 


17.2 ”数据 库 对 象 迁 移 


Oracle 和 PostgreSQL 文 持 的 数据 库 对 象 的 类 型 
和 和 定义 不 一 样 ， 对 于 大 多 数 数据 库 系统 ， 利 用 的 数 
据 库 对 象 为 表 、 索 引 、 序 列 、 视 图 、 函 数 、 存 储 过 
程 等 ， 首 先 需 要 将 Oracle 数 据 库 的 这 些 对 象 的 定义 
迁移 到 PostgreSQL 数 据 库 中 ， 这 一 小 节 主 要 介绍 数 
据 库 表 定 义 迁 移 涉及 的 改造 工作 。 


1. 数 据 库 表 定 义 差 腊 


数据 库 表 是 主要 的 数据 库 对 象 ， 这 部 分 改造 工 
作 涉 及 的 脚本 量 较 大 ， 越 是 复杂 的 系统 ， 涉 及 的 数 
据 库 表 越 多 ， 改 造 工 作 量 越 大 。 数 据 库 表 的 改造 主 
要 是 数据 类 型 的 适 配 ，Oracle 与 PostgreSQL 凶 见 数 
据 类 型 适 配 表 参 考 表 17-1。 


表 17-1 Oracle 与 PostgreSQL 常 见 数 据 类 型 适 配 表 














CHAR, NCHAR character 


CLOABS NELOB, ONG: ex 
NUMBER numeric 
FLOAT 





时 间 日 期 类 型 


TIMESTAMP timestam 
BLOB.、 RAW 


Oracle 11g 





以 上 只 是 列 出 了 常见 的 数据 类 型 ， 关 于 Oracle 
其 他 数据 类 型 谈 者 可 参考 Oracle 官 方 手册 ， 关 于 
PostgreSQL 数 据 类 型 可 参考 本 书 第 2 章 。 


根据 表 17-1 进 行 PostgreSQL 建 表 脚 本 转换 ， 这 
项 工作 通 第 由 开发 人 员 或 开 友 DBA 完 成 ， 管 理 DBA 
提供 文 持 。 


值得 一 提 的 是 ，Oracle 将 对 象 名 称 默 认 转 换 成 
大 写 ， 而 PostgreSQL 将 对 象 名 称 转换 成 小 写 ， 
PostgreSQL 建 表 时 表 名 不 要 用 双 引 号， 否则 将 禹 来 
人 使用、 维护 上 的 复杂 度 。 


2. 仔 储 过 程 代码 关 异 


有 些 应 用 系统 会 将 部 分 业务 用 数据 库 的 存储 过 
程 实现 ， 尤 其 是 大 型 数据 库 系统 使 用 的 存储 过 程 可 
能 多 达 上 百 个 ， 大 型 系统 迁移 将 涉及 大 量 的 改造 工 
作 。PostgreSQL 没 有 存储 过 程 的 概念 ， 可 以 用 函数 
来 实现 存储 过 程 中 的 逻 辑 ，PostgreSQL 孙 数 的 语法 
和 Oracle 有 一 定 的 差异 ， 因 此 ，Oracle 的 存储 过 程 
迁移 到 PostgreSQL 中 需要 重 写 存储 过 程 代 码 ， 所 涉 














及 的 工作 量 还 是 相当 大 的 。 


关于 PostgreSQL 函数 语法 参考 手册 
https://www.postgresql.org/docs/10/static/pjpgsql.html 


(© 


17.3 ”应 用 代码 改造 


应 用 改造 主要 包括 两 部 分 ， 一 部 分 是 SQL 代码 
改造 ， 另 一 部 分 是 应 用 代码 改造 ， 本 小 节 主 要 介绍 
SQL 代码 改造 ，SQL 人 代码 改造 主要 包含 SQL 语法 、 
疯 数 两 方面 。 

如 果 项 目 使 用 的 SQL 大 部 为 SELECT、 
UPDATE、INSERT、DELETE 等 标准 SQL，SQL 代 
人 码 的 改造 工作 量 将 大 大 降低 ， 如 果 使 用 了 Oracle 的 
一 些 特殊 功能 或 函数 ， 相 应 的 改造 量 将 大 些 ， 以 下 
从 SQL 语 法 、 函 数 两 方面 的 大 异 举例 介绍 。 


1.SQL 语 法 的 差异 














在 标准 SQL 方 面 PostgreSQL 与 Oracle 差 异 并 不 
大 ， 通 第 情况 下 大 多 数据 系统 不 可 避免 会 使 用 数据 
库 的 其 他 特性 ， 这 里 仅 列 举 典 型 的 SQL 语 法 差 寞 例 
I 


Oracle 数 据 库 中 可 以 使 用 ROWNUM 虚 拟 列 限 
制 返 回 的 结果 集 记 录 数 ， 例 如 限制 仅 返 回 一 条 记 
录 ， 如 下 所 示 : 





SQL> SELECT OBJECT_NAME FROM dba _ objects WHERE ROWNUM < 2; 


OBJECT_NAME 


PostgreSQL 可 以 使 用 LIMIT 关 键 字 限制 返回 的 
记录 数 ， 如 下 所 示 : 


postgres=# SELECT relname FROM pg_class LIMIT 1; 
relname 


test_sr 
(1 row) 


Oracle 中 的 ROWNUM 和 PostgreSQL 的 LIMIT 语 
法 虽然 在 功能 上 都 可 以 限制 返回 的 结果 集 ， 但 两 者 
原理 不 同 ，ROWNUM 是 一 个 虚拟 列 ， 而 LIMIT 不 
古 虚 拟 列 。 


Oracle 中 的 ROWNUM 和 PostgreSQL 的 LIMIT 常 
用 于 分 页 查询 的 场景 。 


SQL 方面 差异 的 另 一 个 例子 为 序列 使 用 上 的 差 
异 。Oracle 与 PostgreSQL 都 文 持 序列 ， 两 者 使 用 上 
， 例如 Oracle 使 用 以 下 SQL 获 取 友 列 最 近 
返回 值 : 











SQL> SELECT SEQ_ 1.CURRVAL FROM DUAL ， 
CURRVAL 


而 PostgreSQL 获 取 序列 最 近 返 回 值 的 语法 如 下 
所 示 : 


postgres=# SELECT currval('seq_1'); 
currval 


currval 显示 序列 最 近 返 回 的 值 ，nextval 表 示 获 
取 序 列 下 一 个 值 ， 从 以 上 代码 看 出 序列 的 使 用 上 
PostgreSQL 与 Oracle 存 在 较 大 语法 差异 。 


男 外 ，Oracle 的 子 查 询 和 PostgreSQL 子 查询 语 
法 不 一 样 ，Oracle 子 查询 可 以 不 用 别名 ， 如 下 所 
外: 





SQL> SELECT * FROM (SELECT * FROM table_ 1); 


”而 PostgreSQL 了 得 询 必 须 使 用 别名 ， 如 下 所 
小 : 


mydb=> SELECT * FROM (SELECT * FROM table 1) as b; 





SQL 方面 差异 的 另 一 盟 型 例子 为 递归 碍 询 ， 
Oracle 中 通常 使 用 START WITH...CONNECT BY 进 
行 递 归 碍 询 ， 而 PostgreSQL 递 归 碍 询 的 语法 完全 不 
= 


举 一 个 简单 的 例子 ，Oracle 库 中 创建 Larea 表 并 
插入 测试 数据 ， 代 码 如 下 所 示 : 








CREATE TABLE t_area(id numeric,name varchar(32),Tfatherid numer 


INSERT INTO t_area VALUES (1，' 中 国 ' ,0); 
INSERT INTO t_area VALUES (2，' 辽 宁 ' ,1); 
INSERT INTO t_area VALUES (3，' 山 东 ' ,1); 
INSERT INTO t_area VALUES (4,' 沈 阳 ' ;2 
INSERT INTO t_area VALUES (5，' 大 连 ' > 
INSERT INTO t_area VALUES (6，' 济 南 ' 7 8) 
INSERT INTO t_area VALUES (7， ' 和 平 区 ' ,4); 
INSERT INTO t_area VALUES (8， ' 沈 河 区 ' ,4); 








得 询 ID 等 于 4 及 其 所 有 子 节 点 ， 代 码 如 下 所 


si 


和 仆 : 





SQL> SELECT id, name, fatherid 
2 FROM t_area 
3 START WITH id = 4 
4 CONNECT BY PRIOR id = fatherid; 


id name fatherid 
4 沈阳 2 
7 和 平 区 4 


8 沈河 区 4 








PostgreSQL 也 文 持 递归 碍 询 ， 使 用 WITH 
RECURSIVE 实 现 ， 在 PostgreSQL 中 创建 t_area 表 并 
插入 测试 数据 ， 代 人 码 如 下 所 示 : 


CREATE TABLE t_area(id int4,name varchar(32),fatherid int4); 


以 上 id、fatherid 字 段 类 型 在 Oracle 中 为 numeric 
类 型 ， 在 PostgreSQL 中 设置 为 int4 类 型 ， 并 插入 同 
样 数据 ， 之 后 在 PostgreSQL 的 mydb 库 中 执行 如 下 递 
归 查 询 : 


mydb=> WITH RECURSIVE r AS ( 
SELECT * FROM t_area WHERE id = 4 
UNION ALL 
SELECT t_area.* FROM t_area，r WHERE t_area.father 


) 
SELECT * FROM r ORDER BY id; 


id | name | fatherid 
ee PE 

4 | 沈阳 | 2 

7 | 和 平 区 | 4 

8 | 沈河 区 | 4 
(3 rows) 


关于 PostgreSQL 递 归 碍 询 本 书 4.1 节 有 详细 介 


绍 。 


以 上 只 是 介绍 常见 的 Oracle 与 PostgreSQL 在 
SQL 方 面 的 差异 ， 其 他 方面 没有 列 出 ， 在 进行 


Oracle 迁 移 PostgreSQL 项 目 中 可 根据 项 目 情况 查阅 
相关 资料 。 
2. 国 数 的 差异 
原 Oracle 的 SQL 代码 中 会 使 用 到 Oracle 数 据 库 特 
有 有 的 函数 ， 这 些 SQL 转 换 成 PostgreSQL 时 需要 考虑 
函数 的 适 配 ， 这 里 仅 列 出 函数 适 配 的 几 个 例子 。 


例如 ，Oracle 使 用 SYSDATE 或 
CURRENT_DATE 国 数 获 取 当 前 日 期 ， 如 下 上 所 示 : 











SQL> SELECT SYSDATE, CURRENT_DATE FROM DUAL ， 
SYSDATE CURRENT_DATE 


13-11 月 -17 13-11 月 -17 





以 上 只 显示 年 月 日 ， 取 当前 时 间 惟 使 用 
CURRENT _TIMESTAMP， 如 下 所 示 : 


SQL> SELECT CURRENT_TIMESTAMP FROM DUAL ， 
CURRENT_TIMESTAMP 


13-11 月 -17 02.45.42,330637 下 午 +08:00 


PostgreSQL 也 兼容 CURRENT_DATE 和 
CURRENT_TIMESTAMP 了 所 数 ，CURRENT_DATE 
取 当 前 日 期 ，CURRENT TIMESTAMP 或 now () 


因数 取 当 前 时 间 戳 ， 如 下 所 示 : 


mydb=> SELECT CURRENT_DATE 
current_date 


2017-11-12 
(1 row) 


mydb=> SELECT CURRENT_TIMESTAMP, now( ); 
current_timestamp | Now 


2017-11-12 11:13:37.430499+08 | 2017-11-12 11:13:37.43049S 
(1 row) 





下 面 介 绍 一 个 字符 串 函 数 的 适 配 ，Oracle 使 用 
INSTR 泉 数 查 找 一 个 字符 串 中 男 一 个 字符 串 的 位 
置 ， 如 果 找 不 到 字符 串 则 返回 为 0，INSTR 有 四 个 
参数 ， 如 下 所 示 : 





{INSTR} (String , substring [, position [, occurrencel]]) 





` string: 指 源 字符 串 。 
. substring: 指 需 要 查找 的 字符 或 字符 串 。 


position: 开始 查找 的 位 置 ， 默 认 值 为 1， 表 
示 从 源 字 字 符 串 第 一 个 字符 开始 查找 。 


. Occurrence: 表示 第 几 次 出 现 的 值 ， 默 认 值 为 


] 5 表示 第 一 次 出 现时 匹配 。 


举例 如 下 : 


SQL> SELECT INSTR('Hello PostgreSQL!','o') FROM DUAL; 
INSTR( 'HELLOPOSTGRESQL!','0') 


PostgreSQL 也 提供 类 似 函 数 实现 以 上 功能 ， 也 
数 语 法 如 下 : 


position(substring in string) 


PostgreSQL 的 position 函 数 只 有 两 个 参数 ， 相 比 
Oracle 的 INSTR 机 数 答 单 很 多 ， 示 例如 下 : 


mydb=> SELECT position('o' in 'Hello PostgreSQLI ' ) ， 
position 


以 上 的 两 个 示例 都 可 以 在 PostgreSQL 中 找到 适 
配 的 函数 ， 当 然 ，Oracle 中 的 有 些 函 数 在 
PostgreSQL 中 找 不 到 适 配 的 函数 ， 这 时 需要 手工 编 
写 相 关 疯 数 ， 代 码 量 将 增加 。 








尺 一 方面 ， 数 据 类 型 转换 函数 也 有 较 大 差异 ， 
这 里 不 再 举例 。 


17.4 数据 迁移 测试 


另 一 块 比 较 重 要 的 工作 是 数据 迁移 ， 如 何 将 
Oracle 数 据 库 中 表 的 数据 迁移 到 PostgreSQL 数 据 库 
中 ? 数据 迁移 主要 有 以 下 几 种 方式 。 


:方式 一 : 将 Oracle 库 中 表 数 据 按照 一 定格 式 
落地 到 文件 ， 文 件 格 式 为 PostgreSQL 可 识别 的 text 格 
式 或 csv 格式 ， 这 种 方式 需要 将 Oracle 数 据 进行 落 
地 ,。 


` 方式 二 : 在 PostereSQL 库 中 安装 oracle_fdw 外 
部 扩展 ， 部 署 完成 后 ，PostgreSQL 可 以 访问 远 端 的 
Otacle 库 中 的 数据 ， 通 过 SQL 将 远 端 Otacle 表 数据 插 
入 本 地 PostgreSQL 库 ， 这 种 方式 不 需要 将 Oracle 数 
据 进行 落地 。 


` 方式 三 : 使 用 其 他 ETL 数 据 抽 取 工 具 。 

方式 一 由 于 需要 先 将 Oracle 库 数据 落地 ， 操 作 
起 来 较为 复 人 条 ， 这 里 主要 介绍 方式 二 ， 下 面 演示 
oracle_fdw 的 部 团 和 Oracle 数 据 迁 移 到 PostgreSQL， 
演示 环境 如 表 17-2 所 示 。 


表 17-2 oftacle_ fdw 演 示 环 境 


角色 | 主 h 名 | IP | 端口 | 库 名 | 用 记名 | 版 本 | 字符 
TI TD | 训 
re 21662876 De | DR 





1.pghost1 主 机 上 安装 Oracle 11g 客 户 端 


在 pghost1 主 机 上 部 者 oracle_ fdw 之 前 需要 部 署 
Oracle 客 户 问 而 ， 这 里 使 用 RPM 包 安装 方 Ts 安装 
basic、devel、sqlplus 包 即 可 ， 上 所 需 的 RPM 包 下 载 地 
址 
为 : http://www.oracle.com/technetwork/topics/linuxx8 
64soft-092277.html 


安装 RPM 包 ， 如 下 所 示 : 








[root@pghost1 soft_ bakl]# rpm -ivh oracle-instantclient11.2-bas 
[root@pghost1 soft_ bakl]# rpm -ivh oracle-instantclient11.2-sql 
[root@pghost1 soft_ bakl]# rpm -ivh oracle-instantclient11.2-dev 





之 后 设置 postgres 操 作 系统 用 户 环 境 变 量 ， 将 
Oracle 相 关 坏 境 变 量 加 入 ， 如 下 所 示 : 





. .PostgreSQL 相 关 环 境 变 量 省 略 
export ORACLE BASE=/usr/lib/oracle 
export ORACLE HOME=/usr/lib/oracle/11.2/client64 
export LD_LIBRARY_ PATH=$O0RACLE HOME/1ib:$PGHOME/1ib:/1ib64:/us 
export PATH=$O0RACLE_HOME/bin:$PATH:$PGHOME/bin:. 








以 上 这 步 很 关键 ，Oracle 环 境 变 量 设 置 有 误 后 
面 会 健 到 不 少 问题 。 


之 后 在 pghost1 主 机 上 测试 是 否 可 以 连接 远程 主 
机 pghost3 上 的 oracle 数 据 库 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ sqlplus community/community@//192.168.28 
SQL*Plus: Release 11.2.0.1.0 Production on Tue Nov 14 20:55:56 
Copyright (c) 1982, 2009, Oracle. All rights reserved. 
Connected to: 

Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64 
With the Partitioning, OLAP, Data Mining and Real Application 


SQL> 





以 上 说 明 Oracle 客 户 问 安装 成 功 。 
2.pghost1 主 机 上 安装 oracle_fdw 


在 https://api.pgxn.org/dist/oracle_fdw 中 下 载 
oracle_ fdw 人 介质， 这 里 选择 最 新 版本 oracle_fdw 
2.0.0。 


解压 oracle fdw 包 ， 如 下 所 示 : 


# Unzip oracle fdw-2.0.0.zip 


由 于 编译 安装 时 需要 用 到 PostgreSQL 的 





pg_config 等 工具 ， 使 用 root 用 户 编译 安装 前 ， 需 载 
入 postgres 操 作 系 统 用 户 的 环境 变量 ， 如 下 所 示 : 





[root@pghost1 oracle fdw-2.0.0]# Source /home/postgres/.bash_r 
[root@pghost1 oracle fdw-2.0.0]# which pg_config 
/opt/pgsql/bin/pg_config 





编译 并 安装 oracle fdw， 如 下 所 示 : 





[root@pghost1 oracle fdw-2.0.0]# make 


[root@pghost1 oracle fdw-2.0.0]# make install 

/bin/mkdir -p '/opt/pgsql 10.0/1ib' 

/bin/mkdir -p '/opt/pgsql 10.0/share/extension' 

/bin/mkdir -p '/opt/pgsql_10.0/share/extension' 

/bin/mkdir -p '/opt/pgsql 10.0/share/doc/extension' 
/usr/bin/install -c -m 755 oracle fdw.so '/opt/pgsql 10.0/1itk 
/usr/bin/install -c -m 644 .//oracle fdw.control '/opt/pgsql 1 
/usr/bin/install -c -m 644 .//oracle fdw--1.1.sql .//oracle fd 
/usr/bin/install -c -m 644 .//README .oracle fdw '/opt/pgsqdl_ 1c6 





这 时 oracle_ fdw 已 安装 成 功 ， 可 得 看 
$PGHOME/share/extension 目录 进行 确认 ， 如 下 所 
个 \: 





[root@pghost1 oracle fdw-2.0.0]# 11 /opt/pgsql/share/extension 
-rw-r--r-- 1 root root 231 Nov 12 14:45 /opt/pgsql/share/exte 
-rw-r--r-- 1 root root 1003 Nov 12 14:45 /opt/pgsql/share/exte 
-rw-r--r-- 1 root root 133 Nov 12 14:45 /opt/pgsql/share/exte 





可 见 ，$PGHOME/share/extension 目录 下 多 了 


oracle_fdw 相 关 文 件 。 
3.pghost1l 的 mydb 库 中 部 团 oracle_fdw 


在 pghost1 上 的 mydb 中 创建 oracle_fdw 外 部 打 
展 ， 如 下 所 示 : 


[postgres@pghost1 ~]$ psql mydb postgres 
psql (10.0) 
Type "help" for help. 


mydb=# CREATE EXTENSION oracle_fdw; 
CREATE EXTENSION 


创建 外 部 扩展 需要 使 用 超级 用 户 权 限 ， 普 通用 
户 使 用 oracle_fdw 需 单独 赋 权 ， 计 划 以 普通 用 户 
pguser 使 用 oracle_fdw 外 部 扩展 ， 给 pguser 用 户 赋 
oracle_fdw 使 用 权限 ， 如 下 所 示 : 


mydb=# GRANT USAGE ON FOREIGN DATA WRAPPER oracle fdw TO pguse 
GRANT 


4.pghost3 的 Oracle 库 创建 测试 表 和 只 读 用 户 


假设 community 为 oracle 库 中 的 生产 系统 账号 ， 
以 community 用 户 创建 一 张 业 务 表 ， 如 下 所 示 : 


CREATE TABLE T_ORA1(id numeric, info varchar2(32),create time t 


INSERT INTO T_ORA1 VALUES (1, 'a', CURRENT_TIMESTAMP ) ; 
INSERT INTO T_ORA1 VALUES (2,'b',CURRENT_ TIMESTAMP); 
INSERT INTO T_ORA1 VALUES (3，' 第 三 条 记录 ' ,CURRENT_TIMESTAMP ) 








创建 一 个 只 读 账 号 ， 并 赋予 表 的 得 询 权 限 ， 迁 
移 Oracle 数 据 到 PostgreSQL 时 使 用 READONLY 账 写 
即 可 ， 而 不 需要 使 用 Oracle 库 中 的 生产 系统 账号 。 





CREATE USER READONLY IDENTIFIED BY "readonly" 
DEFAULT TABLESPACE TS_COMMUNITY 
TEMPORARY TABLESPACE TEMP 
PROFILE DEFAULT 
ACCOUNT UNLOCK， 


GRANT CONNECT TO READONLY; 
GRANT SELECT ON COMMUNITY.T_ORA1 TO READONLY; 





以 上 只 将 T_ORA1 表 的 读 权 限 赋 子 READONLY 
账号 ， 实 际 项 目 中 需要 将 所 有 需要 迁移 的 表 的 查询 
权限 进行 赋 权 。 


5.pghost1 的 mydb 库 中 创建 外 部 服务 、 上 映射 用 户 


以 pguser 用 户 登 录 mydb 库 创建 外 部 服务 ， 如 下 
所 示 : 








[postgres@pghost1 ~]$ psql mydb pguser 
psql (10.0) 
Type "help" for help. 


mydb=> CREATE SERVER fs_oracle_pghost3 FOREIGN DATA WRAPPER or 
CREATE SERVER 


在 OPTIONS 选 项 中 的 dbserver 配 置 远程 Oracle 
库 的 连接 信息 ， 以 上 是 在 CREATE SERVER 命令 中 
直接 配置 远程 Oracle 数 据 库 的 连接 信息 ， 也 可 以 将 
远程 Oracle 库 的 连接 信息 配置 到 本 地 Oracle 客 户 端 
的 tnsnames.ora 文 件 ， 之 后 OPTIONS 中 的 dbserver 属 
性 直接 配置 服务 名 即 可 。 


要 配置 Oracle 客 户 端 tmsnames.ora， 需 增加 以 下 
Oracle 连 接 串 信息 : 


oradb= 
(DESCRIPTION= 
(ADDRESS= 
(PROTOCOL=TCP ) 
(HOST=192 .168 .28.76) 
(PORT=1521) 


) 
(CONNECT_DATA= 
(SERVICE_NAME=oradb) 


) 
) 


之 后 通过 命令 创建 远程 服务 ， 如 下 所 示 : 


mydb=> CREATE SERVER fs_oracle pghost3 FOREIGN DATA WRAPPER or 


以 上 两 种 配置 dbserver 的 方法 都 可 以 ， 本 测试 
使 用 的 是 第 一 种 方式 。 


创建 映射 用 户 ， 如 下 所 未: 








mydb=> CREATE USER MAPPING FOR pguser SERVER fs_oracle_pghost3 
CREATE USER MAPPING 


以 上 命令 中 第 一 个 用 户 pguser 指 本 地 
PostgreSQL 库 的 用 户 ，OPTIONS 中 的 readonly 指 远 
问 Oracle 库 中 的 用 户 。 


6.pghost1 的 mydb 库 中 创建 外 部 表 


mydb 库 定义 一 张 外 部 表 ， 表 结构 和 Oracle 库 中 
的 T_ORA1 一 臻 ， 如 下 所 示 : 





mydb=> CREATE FOREIGN TABLE ft t oral ( 
id int4, 
info text, 
create time timestamp with time zone 
) SERVER fs_oracle pghost3 OPTIONS (Schema 'COMMUNITY', table 





SERVER 属性 配置 外 部 数据 源 ， 这 里 配置 成 上 
一 步 中 创建 的 fs_oracle_pghost3 外 部 源 。 


OPTIONS 文 持 的 选项 较 多 ， 主 要 选项 值 如 下 : 


Table: Oracle 库 中 的 表 名 ， 必 须 和 Oracle 库 
中 数据 字典 表 名 一 致 ， 由 于 Oracle 库 数据 字典 中 表 
名 存储 为 大 写 ， 因 此 这 里 的 表 名 需 大 写 ， 否 则 查询 
外 部 表 时 可 能 报 远程 表 不 存在 。 


. Schema: 远程 Oracle 库 的 模式 名 ， 设 置 成 大 
写 。 
` Readonly: 设置 外 部 表 是 否 仅 允许 读 操作 ， 


如 果 设 置 成 yes ,MINSERT、 UPDATE、 DELETE 
操作 将 不 允许 执行 ， 默 认为 false。 


以 上 仅 设 置 schema、table 属 性 ， 其 他 属性 详 见 
手册 : https://pgxn.org/dist/oracle_fdw/ 之 后 查询 外 部 
表 进 行 测试 ， 如 下 所 示 : 


mydb=> SELECT * FROM ft_t_oral; 


id | info | create_ time 
a 和 
1 | a | 2017-11-12 15:02:54.465304+08 
2 | b | 2017-11-12 15:02:54.477453+08 
3 | 第 三 条 记录 | 2017-11-12 15:02:54.493603+08 
(3 rows) 


可 见 ， 在 PostgreSQL 库 中 能 正常 访问 Oracle 库 
中 的 数据 ， 中 文字 符 没 出 现 乱 码 ， 时 间 字 段 信息 也 
正确。 


7. 将 Oracle 库 中 表 数 据 迁 移 到 PostgreSQL 库 中 


之 后 在 PostgreSQL 数 据 库 中 定义 表 ， 和 Oracle 
库 中 表 结 构 保 持 一 致 ， 如 下 所 示 : 


mydb=> CREATE TABLE t_orai(id int4, Info text,create _ time times 
CREATE TABLE 


数据 量 小 则 可 直接 通过 INSERT 方 式 迁 移 数 
据 ， 如 下 所 示 : 


mydb=> INSERT INTO t_oral SELECT * FROM ft _t_oral，; 
INSERT 0 3 


如 果 数 据 量 较 大 ， 迁 移 数 据 时 间 较 长 ， 可 考虑 
分 多 条 INSERT 并 行 插入 ， 例 如 根据 主键 选择 迁移 
的 记录 ， 碍 询 表 数据 进行 验证 ， 如 下 所 示 : 


mydb=> SELECT * FROM t_oral; 
id | info | create_time 


a i ee ee a er en ee oe Pon, ee en i i ee, re i, ee i en ee 
1|a | 2017-11-12 15:02:54.465304+08 
2 | b | 2017-11-12 15:02:54.477453+08 
3 | 第 三 条 记录 “| 2017-11-12 15:02:54.493603+08 
(3 rows ) 


可 见 Oracle 库 中 的 T_OA1 表 数据 已 成 功 迁 移 到 
PostgreSQL 。 


17.5 ”功能 测试 和 性 能 测试 


数据 库 对 象 迁移 、 应 用 代码 改造 、 数 据 迁 移 测 
试 完成 之 后 ， 接 下 来 进行 功能 测试 和 性 能 测试 ， 功 
能 测试 指 对 新 系统 进行 功能 测试 ， 性 能 测试 指 对 系 
统 进行 压力 测试 ， 这 两 块 工作 主要 为 测试 人 员 ， 开 
发 人 员 、DBA 配 合 ， 性 能 测试 理论 上 可 以 测 出 系统 
的 最 高 业务 吞吐 量 。 


功能 测试 过 程 中 ， 出 现 SQL 代 码 异 常 时 DBA 需 
要 提供 支撑 ， 性 能 测试 过 程 中 ，DBA 要 做 好 数据 库 
的 性 能 监控 工作 ， 碍 找 系统 是 否 存在 慢 SQL， 是 否 
能 优化 SQL 提升 系统 的 业务 吞吐 量 。 


对 于 核心 业务 涉及 的 SQL，DBA 需 要 重点 关注 
并 优化 。 











17.6 ”生产 割 接 


数据 库 对 象 迁 移 、 应 用 代码 改造 、 数 据 迁 移 调 
试 、 功 能 测试 、 性 能 测试 完成 之 后 ， 基 本 具备 生产 
割 接 的 条 件 了 ， 正 却 割 接 前 建议 至 少 做 两 次 割 接 演 
练 ， 重 点 记录 数据 迁移 测试 时 间 、 俘 服务 时 间 ， 以 


及 验证 整个 迁移 步 又 是 否 有 问题 。 


如 果 信 服务 时 间 太 长 ， 业 务 方 可 能 不 接受 ， 这 
时 DBA 要 考虑 如 何 减少 集 服 务 期 间 的 数据 迁移 时 
间 ， 例 如 ， 历 史 数 据 是 人 否 可 以 提前 迁移 ? 


在 之 前 做 的 Oracle 迁 移 PostgreSQL 项 目 中 ， 由 
于 全 库 数据 加 索引 总 量 在 100GB 以 内 ， 全 量 迁 移 停 
服务 时 间 控 制 在 两 小 时 以 内 ， 业 务 方 可 接受 ， 因 此 
生产 割 接 采 取 的 是 全 量 迁 移 方式 。 如 果 业 务 对 停 服 
务 时 间 非 常人 敏感 ， 这 时 要 考虑 最 小 化 数据 迁移 方案 
或 增 量 数据 迁移 方案 ， 本 书 不 做 介绍 。 














17.7 oracle _fdw 部 闭 过 程 中 的 常见 错误 


这 里 总 结 几 个 oracle_fdw 部 署 过 程 中 常见 的 错 
误 和 处 理 方法 。 


常见 错误 一 : 创建 oracle_fdw 扩 展 时 报 相 关 .so 
文件 找 不 到 


在 数据 库 中 创建 oracle_fdw 外 部 扩展 时 可 能 倍 
到 如 下 错误 : 


mydb=# CREATE EXTENSION oracle_fdw; 
ERROR: could not load library "/opt/pgsql 10.0/1lib/oracle_fdv 


报错 信息 显示 找 不 到 相应 lib 库 ， 这 些 ]ib 库 在 
Oracle 客 户 端 相关 目录 中 ， 检 栓 Oracle 环 境 变 量 是 
否 正确 设置 ， 例 如 $LD_LIBRARY _ PATH、 
$ORACLE_HOME 等 ， 如 果 这 些 环境 变量 已 正确 设 
置 仍然 无 法 解决 此 问题 ， 可 尝试 将 这 些 lib 文 件 复制 
到 $PGHOME/ib 目 录 ， 如 下 所 示 : 





[root@pghost1 ~]# cp /usr/lib/oracle/11.2/client64/1ib/libclint 
[root@pghost1 ~]# cp /usr/lib/oracle/11.2/client64/1ib/l1ibnnz1 


之 后 再 次 创建 oracle fdw 扩 展 时 通常 能 成 功 。 


种 见 错误 二 : 外 部 表 可 正常 创建 ， 但 查询 外 部 
表 时 报错 


外 部 表 可 正常 创建 ， 但 得 询 外 部 表 时 报 如 下 销 
误 : 
mydb=> SELECT * FROM ft _t_oral; 


ERROR: error connecting to Oracle: OCIEnvCreate failed to cre 
DETAIL : 








出 现 此 错误 时 ， 通 常 是 因为 没有 设置 好 Oracle 
相关 环境 变量 ， 例 如 $ORACLE_HOME、 
$LD LIBRARY PATH 等 ， 本 测试 案例 Oracle 的 环 
境 变 量 设置 如 下 所 示 : 











.省略 PostgreSQL 相 关 环 境 变量 
export ORACLE_BASE=/usr/1lib/oracle 
export ORACLE HOME=/Uusr/lib/oracle/11.2/client64 
export LD_LIBRARY_ PATH=$O0RACLE HOME/1ib:$PGHOME/1ib:/1ib64:/us 
export PATH=$O0RACLE_ HOME/bin:$PATH:$PGHOME/bin:. 








环境 变量 设置 完成 后 测试 sqjplus 是 售 可 连接 远 
程 的 Oracle 库 ， 如 下 所 示 : 


sqlplus community/community@//192.168.28.76/o0radb 





如 有 果 sqlplus 可 正常 连接 远程 Oracle 数 据 库 ， 说 





明 Oracle 环 境 变 量 配置 正常 ， 之 后 重启 PostgreSQL 
数据 库 ， 最 后 再 次 查询 外 部 表 进 行 测 试 。 


这 个 错误 是 部 署 oracle_fdw 过 程 中 的 常见 错 
误 ， 通 第 需要 伦 较 多 时 间 排 得 并 解决 ， 特 列 是 
Oracle、PostgreSQL 环 境 变 量 调整 过 并 已 核实 配置 
正确 ， 之 后 可 尝试 重启 PostgreSQL 数 据 库 。 














第 见 错 误 三 :， 得 询 外 部 表 时 报 远 程 Oracle 表 不 
存在 


创建 oracle_fdw 外 部 表 时 OPTIONS 有 schema 和 和 
table 选 项 ， 分 别 指 Oracle 库 的 模式 名 和 表 名 ， 这 个 
名 称 需 大 写 ， 如 果 小 写 则 会 报 远程 表 不 存在 ， 下 面 
进行 测试 。 


创建 一 张 表 结构 和 ft_t_oral 一 样 的 外 部 表 ， 只 
征 表 名 小 写 ， 如 下 所 示 : 


CREATE FOREIGN TABLE ft _ t_ora2 ( 
id int4, 
info text, 
create_ time timestamp with time Zone 
) SERVER fs_oracle pghost3 OPTIONS (Schema 'COMMUNITY', table 


查询 外 部 表 ft_t_ora2， 如 下 所 示 : 


mydb=> SE1ECT * FROM ft_t_ora2; 

ERROR: Oracle table "COMMUNITY"."t_orai" for foreign table "f 
DETAIL: ORA-00942: table or View does not exist 

HINT: Oracle table names are case sensitive (normally all upF 





以 上 提示 外 部 表 ft_t_ora2 对 应 的 Oracle 表 不 存 
在 或 没有 读 的 权限 。 


同样 ， 将 schema 配 置 成 小 写 也 会 出 现 以 上 错 
误 ， 创 建 一 张 外 部 表 ft t ora3， 表 结构 和 ft t_oral 
一 致 ， 只 是 schema 配 置 成 小 写 ， 如 下 上 所 示 : 








CREATE FOREIGN TABLE ft _t_ora3 ( 
Id int4, 
info text, 
create_ time timestamp with time Zone 
) SERVER fs_oracle pghost3 OPTIONS (Schema 'community', table 





查询 外 部 表 ft_t_ora3， 如 下 所 示 : 





mydb=> SE1ECT * FROM ft_t_ora3,; 

ERROR: Oracle table "community"."T_ORA1" for foreign table "f 
DETAIL: ORA-00942: table or View does not exist 

HINT: Oracle table names are case sensitive (normally all upr 





可 见 ， 查 询 外 部 表 ft_t_ora3 时 报 同样 的 错误 。 


1 下 年 小 2 


本 章 从 实际 案例 出 上 有 友 ， 分 享 了 一 个 Oracle 数 据 
库 迁 移 到 PostgreSQL 数 据 库 的 实际 项 目 ， 并 介绍 了 
此 迁移 项 目的 主要 阶段 和 工作 ， 一 个 在 线 系统 符 换 
后 台数 据 库 并 非 易 事 ， 涉 及 的 工作 量 很 大 ， 主 要 包 
含 数 据 库 对 象 迁 移 、 应 用 代码 改造 、 数 据 迁 移 测 
试 、 功 能 和 性 能 测试 、 生 产 系 统制 接 等 阶段 性 工 
作 ， 越 复杂 的 系统 迁移 工作 量 越 大 ， 本 章 给 出 的 迁 
移 案 例 只 是 一 个 很 简单 的 Oracle 迁 移 PostgreSQL 案 
例 。 


本 章 的 迁移 实践 主要 基于 oracle_fdw 外 部 表 迁 
移 Oracle 库 数据 到 PostgreSQL ， 有 一 些 工 具 也 可 以 
辅助 迁移 ， 例 如 有 一 个 名 为 Ora2Pg 的 免费 工具 用 于 
将 Oracle 库 中 的 数据 迁移 到 PostgreSQL， 这 个 工具 
连接 到 Oracle 库 扫描 Oracle 库 中 的 对 象 的 定义 和 数 
据 并 生成 PostgreSQL 可 识别 的 SQL 脚本 ， 之 后 将 生 
成 的 脚本 导入 PostgreSQL 库 中 ， 这 个 过 程 中 虽然 做 
到 了 上 自动化， 但 依然 需要 大 量 人 工 介 入 ， 特 别 是 使 
用 了 Oracle 特 殊 函 数 或 尾 殊 语法 的 SQL 或 存储 过 
程 ， 需 要 手工 检查 并 调整 脚本 ， 有 兴趣 的 谈 者 可 目 
行 了 解 ， 项 目地 址 为 : http://ora2pg.darold.net/ 。 











第 18 章 ”PostGIS 


空间 数据 是 一 类 重要 的 数据 ， 地 图 导航 、 打 车 
软件 、 餐 厅 推 荐 、 外 卖 快递 这 些 我 们 日 党 生活 中 用 
到 的 软件 ， 青 后 都 与 空间 数据 恩 姑 相 关 。 空 间 数 据 
通常 结构 复 洒 ， 数 据 量 大 ， 对 于 空间 数据 的 分 析 查 
询 ， 其 模式 也 迎 卉 于 普通 的 数据 ， 一 般 的 DBMS 难 
以 满足 要 求 。 


PostgreSQL 已 经 内 置 了 很 多 空间 特性 : 几何 数 
据 关 型、 几何 类 型 国 数 与 运算 符 、 空 间 数 据 索 引 。 
但 对 于 现实 世界 的 复杂 需求 仍 力 有 不 还 : 有 很 多 辅 
路 文 路 的 道路 ， 需 要 用 多 条 折线 来 表示 ; 行政 区 域 
的 飞 地 ， 雷 要 用 多 个 多 边 形 的 集合 来 表示 ; 高 效 判 
汤 点 是 否 在 多 边 形 内 、 两 条 折线 是 否 有 交点 ， 两 个 
区 域 相 离 、 相 邻 、 重 车 还 是 包含 。 好 在 PostgreSQL 
强大 的 扩展 机 制 为 解决 问题 留 下 了 一 个 窗口 ， 
PostGIS 为 此 而 生 ， 它 已 经 成 为 GIS 行 业 的 事实 标 
准 。 


本 章 将 简单 讨论 PostGIS 的 安装 方法 和 最 简单 
的 应 用 oO 


























18.1 安装 与 配置 


安装 与 配置 并 不 是 PostGIS 的 学 习 重 点 ， 然 而 
它 确 实 是 许多 新 人 入 门 的 最 大 拦路 虎 。 


建议 通过 yum、apt-get、brew 等 包 管 理 器 直接 
安装 现成 的 二 进 制 包 ， 而 不 是 手工 编译 ， 这 会 轻松 
很 多 。 不 同 版 本 的 PostgreSQL 对 PostGIS 的 版 本 也 有 
要 求 ， 一 般 先 查看 目前 yum 源 中 有 哪些 版 本 可 用 ， 
并 安装 合适 的 版 本 ， 如 下 所 示 : 








[postgres@pghost1 ~]$ yum search postgis 
Loaded plugins: fastestmirror, security 


postgis24 10.x86_64 : Geographic Information Systems Extension 
Name and summary matches only, use "search all" for everyt 


我 们 安装 PostgreSQL 10 对 应 版 本 的 PostGIS， 
如 下 上 所 示 : 


[postgres@pghost1 ~]$ yum install -y postgis24 10 


安 逆 大 约 持 续 一 两 分 钟 即 可 结束 。 


对 于 使 用 源码 编译 安 六 ， 这 里 不 做 次 述 了 ， 有 
兴趣 的 读者 请 目 行 实验 。 


18.2 ”创建 GIS 数 据 库 


PostGIS 是 PostgreSQL 的 一 个 扩展 ， 连 接 并 执行 
以 下 命令 ， 创 建 geo 数 据 库 并 加 载 PostGIS 扩 展 : 





postgres=# CREATE DATABASE geo; 
CREATE DATABASE 

postgres=# \c geo 

geo=# CREATE EXTENSION postgis,; 
CREATE EXTENSION 





连接 PostgreSQL 并 执行 以 下 得 询 ， 确 认 PostGIS 
扩展 已 经 正确 地 安装 ， 可 以 被 数据 库 识 别 : 





geo=# SELECT name, default_version FROM pg_available extensions 
name | default_version 


EE EE 
postgis | 

postgis_ tiger_geocoder | 

postgis_topology | 

| 


postgis_sfcgal 





执行 完毕 后 ， 执 行 postgis_full_version 查 看 当前 
PostGIS 版 本 ， 如 下 所 示 : 





gis=# SELECT postgis full version(); 
POSTGIS="2.4.3 r16312" PGSQL="100" GEOS="3.6.2-CAPI-1.10.2 4d2 





现在 GIS 数 据 库 已 经 准备 好 了 ， 让 我 们 进入 主 


题 。 


18.3 ”几何 对 象 


PostGIS 文 持 很 多 几何 类 型 : 氮 、 线 、 多 边 
形 、 复 合 几何 体 等 ， 并 提供 了 大 量 实用 的 相关 函 
数 。 





注意 ”虽然 PostGIS 中 的 几何 类 型 与 
PostgreSQL 内 建 的 几何 类 型 非常 像 ， 但 它们 并 不 是 
一 回 事 。 所 有 PostGIS 中 的 对 象 命 名 通常 都 以 ST 开 
头 ， 是 空间 类 型 (Spatial Type) 的 缩写 。 


对 于 PostGIS 而 言 ， 所 有 几何 对 象 都 有 一 个 公 
共 父 类 Geometry， 这 种 面 同 对 象 的 组 织 形式 允许 在 
数据 库 中 进行 一 些 灵 活 的 操作 : 例如 在 数据 表 中 的 
同一 列 中 存储 不 同 的 几何 对 象 ， 每 种 几何 对 象 实 际 
上 都 是 PostGIS 底 层 几 何 库 geos 中 对 象 的 包装 。 





18.3.1 几何 对 象 的 输入 





PostGIS 文 持 多 种 空间 对 象 创建 方式 ， 大 体 上 
可 以 分 为 几 类 : 


众所周知 的 文本 格式 (WKT,，, Well-Known- 
Text) 


“ 众所周知 的 二 进 制 格式 (WKB，Well- 
Known-Binary) 


. GeoJSON 等 编码 
` 返回 几何 类 型 的 函数 


例如 ， 创 建 几 何 点 (1，2)〉 ， 可 以 通过 以 下 四 
种 方式 ， 得 到 的 结果 都 是 一 样 的 : 





gis=# SELECT 
"Point(1 2)'::GEOMETRY 
'0101000000000000000000F03F0000000000000040': :GEOMETRY 
ST_GeomFromGeoJSON('{"type":"Point","coordinates":[1,2]1}') 
ST_Point(1, 2) 


18.3.2 ”几何 对 象 的 存储 


PostGIS 的 几何 类 型 与 PostgreSQL 内 建 的 几何 类 
型 使 用 了 不 同 的 存储 方式 。 


以 点 为 例 ， 使 用 内 置 的 Point 与 ST_Point 创 建 一 
个 点 ， 返 回 的 结果 如 下 所 示 : 


geo=# SELECT Point(1,2)，ST_Point(1,2)， 
point | st_point 

rs a 
(1,2) | 0101000000000000000000F03F0000000000000040 


PostgreSQL 中 的 Point 只 是 一 个 包含 两 个 Double 
的 结构 体 〈16 字 节 ) 。 但 PostGIS 的 点 类 型 ST_Point 
则 采用 了 不 同 的 存储 方式 (21 字 市 ) ， 除 了 两 个 华 
标 分 量 ， 还 包括 了 一 些 额 外 的 元 数据 : 例如 几何 对 
象 的 实际 类 型 、 参 考 系 的 ID 等 。 


当 答 询 PostGIS 空 间 数 据 类 型 时 ，PostgreSQL 会 
以 十 六 进 制 的 形式 返回 对 象 的 二 进 制 数 据 表 示 。 这 
便于 各 类 ETL 工 具 以 统一 的 方式 处 理 空间 数据 类 
型 。 包 含 空 间 数 据 的 表 也 可 以 使 用 pg_dump 等 工具 
以 同样 的 方式 处 理 。 


如 果 需 要 人 类 可 读 的 格式 ， 则 可 以 用 
ST_AsText 输 出 WKT， 而 非 WKB， 如 下 所 示 : 





geo=# SELECT ST_AsText(ST_ Point(1,2)); 
st _astext 


POINT(1 2) 





在 实际 使 用 中 ， 通 常 PostGIS 的 空间 数据 类 型 
使 用 统一 的 Geometry 类 型 ， 无 论 是 点 、 折 线 还 是 多 
边 形 ， 都 可 以 放 入 Geometry 类 型 字段 中 。 例 如 





gis=# CREATE TABLE geo ( 
geom GEOMETRY 


) ; 
gis=# INSERT INTO geo VALUES 


(ST_Point(1.0, 2.0)), 

('LineString(0 0,1 1,2 1,2 3)'), 
('Polygon((©0 0, 1 0, 1 1,0 1,0 0))'), 
('MultiPoint(1 2,3 4)'); 





18.3.3 ”几何 对 象 的 输出 


与 几何 对 象 的 输入 类 似 ， 儿 何 对 象 也 可 以 以 多 
种 方式 输出 ， 这 里 以 最 常见 的 WKT 与 GeoJSON 为 
例 : 





gis=# SELECT 
ST_AsText (geom) AS wkt, 
ST_AsGeoJSON(geom) AS json 
FROM geo; 





表 18-1 列 出 了 集合 对 象 的 输出 格式 。 
表 18-1 集合 对 象 输出 格式 


wkt json 
POINT(1 2) {"type":"Point"."coordinates":[1.2]} 
LINESTRING(0 0,1 1,2 1,2 3) {"type":"LineString","coordinates":[[0.0],[1,1],[2,1],[2.,3]]} 
POLYGON((0 0,1 0,1 1,0 1,0 0)) {"type":"Polygon","coordinates":[[[0,0],[1.0],[1,1].[0,1],[0,0]]]} 
MULIIPOINT(1 2,3 4) {"type":"MultiPoint","coordinates":[[1.2].[3.4]]} 


一 些 几 何 类 型 支持 特殊 的 输出 方式 ， 例 如 以 经 
毕 度 格式 输出 几何 反 : 





geo=# SELECT ST_AsLatLonText(ST_Point(116.321367,39.966956)); 
st_aslatlontext 


39°58'1.042"N 116°19'16.921"E 


18.3.4 ”几何 对 象 的 运算 


PostGIS 所 供 了 多 种 多 样 的 关系 判断 与 几何 运 
算 函 数 ， 功 能 非 第 强大 。 原 本 需要 几 干 行业 务 代 码 
才能 实现 的 功能 ， 可 能 现在 只 需要 一 行 SQL 就 可 以 
搞定 。 


几何 对 象 之 间 有 多 种 多 样 的 关系 ， 最 简单 的 英 
过 于 两 点 之 间 的 距离 了 ， 如 下 所 示 : 





geo=# SELECT ST_Point(1,1) <-> ST_Point(2,2); 
1.4142135623730951 


例如 ， 计 算 点 (1，1) 和 点 (2，2) 之 间 的 距 
离 ， 结 果 应 该 为 根 号 二 。 


两 个 几何 点 的 坐标 计算 相对 容易 ， 但 两 个 地 理 
坐标 之 间 的 距离 束 相 当 复 杂 了 ， 需 要 计算 一 个 不 规 
则 球体 上 的 球面 距离 。 例 如 ， 地 点 A 的 经 纬度 为 : 

(116.321367，39.966956) ， 地 点 B 的 坐标 为 : 
(116.315346，39.997398) 。 如 果 直 接 用 几何 距离 
计算 结果 除了 能 用 于 粗略 比较 相对 距离 ， 没 有 太 











大 意义 ， 如 下 所 示 : 


gis=# SELECT ST_Point(116.321367, 39.966956) <-> ST_Point(116， 
-- 0.03103172255933419 结 果 没 有 任何 意义 











但 通过 引入 地 理 坐 标 系 ，〈4326 号 坐标 系 ， 指 
代 WGS84 国 际 标准 GPS 坐标 系 ) ， 就 可 以 计算 出 这 
两 个 地 点 间 的 地 理 距 离 (3.4km) ， 如 下 所 示 : 


gis=# SELECT ST_AsText(ST_GeomFromText('POINT(116.321367 39.9€ 
ST_AsText(ST_GeomFromText('POINT(116.315346 39.997398)', 4 
3423.653480690467 


又 比如 ， 想 要 知道 某 条 路 R 的 总 长 度 ， 可 以 使 
用 ST_length 统 计 WGS84 坐 标 系 下 折线 的 总 长 度 ， 
如 下 所 示 : 


-- 路 R 可 以 使 用 MultiLineString 表 示 
gis=# SELECT ST_length(ST_GeomFromText('MULTILINESTRING( (116.3 
12314.809569165007 


通过 计算 ， 得 到 路 R( 含 支 路 ) 的 总 长 度 约 为 
12 公 里 。 


又 比如 茶 一 景点 〈 含 内 湖 ) 的 面积 ， 可 以 通 
ST_Area 对 ST_Polygon 计 算得 出 ， 如 下 所 示 : 


gis=# SELECT ST_Area(ST_GeomFromText( "POLYGON((116 .402408 39 .9 
1005170 





该 景点 的 面积 约 一 平方 公里 。 还 有 很 多 功能 ， 
在 此 不 一 一 葡 述 。 


18.4 应 用 场景 ， 圈 人 与 地 理 围栏 


图 人 是 LBS 服 务 中 第 见 的 需求 : 给 出 一 个 中 心 
点 ， 找 出 该 点 周围 一 定 距离 范围 内 所 有 符合 条 件 的 
对 象 。 例 如 ， 找 出 以 用 户 为 中 心 ， 周 围 1 公里 内 所 
有 的 公交 站 ， 并 按 距离 远近 排序 。 


传统 的 关系 型 数据 库 ， 可 能 实现 起 来 相当 复 
杂 ， 假 设 用 户 正 在 A 地 铁 站 : (116.321367， 
39.966956) 篆 见 的 做 法 是 ， 以 用 户 为 中 心 ， 经 纬度 
各 自 加 减 一 公里 的 偏 移 量 (1 度 约 为 111 公 里 ) ， 然 
后 使 用 经 纬度 上 的 索引 进行 初次 过 滤 (这 时 过 滤 使 
用 的 是 和 矩形 范围 ) ， 如 下 所 示 : 








gis=# CREATE TABLE stations( 
name TEXT, 
longitude DOUBLE PRICISION, 
latitude DOUBLE PRICISION, 


); 

- - 使 用 矩形 筛选 

gis=# SELECT name FROM stations WHERE longitude BETWEEN 116.31 
AND latitude BETWEEN 39.957947 AND 39.975965; 


然后 ， 在 应 用 代码 中 对 每 个 符合 条 件 的 点 计算 
几何 距离 ， 判 断 是 人 否 符 合 距离 条 件 ， 最 后 排序 输 
出 。 当 然 也 可 以 使 用 GeoHash 方 法 ， 将 二 维 坐 标 化 
为 一 维 字符 串 编 码 ， 查 询 时 进行 前 级 匹配 ， 这 里 不 





再 详细 讨论 。 


如 果 使 用 PostGIS， 调 用 PostGIS 中 计算 距离 的 
疯 数 ， 一 行 SQL 束 可 以 解决 这 个 问题 ， 如 下 所 示 : 


gis=# SELECT 
name, 


ST_Point(116.321367, 39.966956) :: GEOGRAPHY <-> position 
FROM stations 


WHERE ST_Point(116.321367, 39.,966956) :: GEOGRAPHY <-> positio 
ORDER BY ST_Point(116.321367, 39.966956) ::; GEOGRAPHY <-> posi 


18.4.1 空间 索引 


在 100 万 行 的 表 上 ， 执 行 暴力 扫 表 也 揭 强 堪 
用 ， 但 对 于 生产 环境 动 辑 几 王 万 上 亿 的 大 表 ， 职 不 
能 这 么 做 了 。 例 如 ， 在 1 亿 条 记录 的 POI 表 上 ， 查 询 
距离 A 地 铁 站 最 近 的 1000 个 POI 点 ， 如 下 所 示 : 





gis=# SELECT name FROM poi ORDER BY position <-> ST_Point(116. 


这 条 得 询 执行 了 3 分 钟 。 现 在 使 用 PostgreSQL 
提供 的 GIST 索 引 ， 如 下 所 示 : 


gis=# CREATE INDEX CONCURRENTLY idx_poi position_ gist ON poi U 


使 用 索引 后 的 执行 计划 如 下 所 示 : 


QUERY PLAN 
Limit (cost=0.42..9.73 rows=10 width=31) 
-> Index Scan using idx_poi position gist on poi (cost=0Q 
Order By: ("position" <-> '0101000000CAA65CE15D1D5D409 





同样 的 查询 只 要 1ms 不 到 了 ， 快 了 几 十 万 倍 ， 
如 下 所 示 : 


geo=# SELECT name FROM poi ORDER BY position <-> ST_Point(116. 
name 


(10 rows) 
Time: 0.993 ms 


18.4.2 地理 围栏 





用 点 和 距离 男 圆 圈 人 是 一 种 帅 见 场景 ， 邦 外 一 
种 种 见 的 场景 是 ， 判 断 一 个 点 落 在 了 哪些 地 理 围栏 
中 。 








例如 有 和 车辆 和 用 户 的 位 置 坐 标 ， 现 在 希望 从 坐 
标 得 到 用 户 所 处 的 城市 〈 或 者 区 域 、 丙 圈 等 ) ， 文 
比如 共识 单车 的 雁 售 区 检测 ， 无 人 机 的 茶 飞 区 识 











别 ， 痢 是 这 种 场景 ， 如 下 所 示 : 





-- 兴趣 区 域 (AOI，Area of Interest) 
gis=# CREATE TABLE aoi( 

name TEXT, 

bound GEOMETRY 


) 
-- 检测 A 地 铁 站 中 心 点 所 属 的 商 圈 
gis=# SELECT name FROM aoi WHERE ST_Contains(bound, ST_Point(1 





钟 鼓楼 商 圈 
百货 商城 
南大 街 商 圈 








18.5 ”本章 小 结 


PostGIS 对 与 现在 的 应 用 越 来 越 有 意义 ， 使 用 
它 可 以 很 迅速 地 开发 出 很 多 有 意思 的 基于 地 理 位 置 
信息 的 应 用 。 本 章 讲 解 了 如 何 快速 安装 和 配置 
PostGIS， 通 过 简单 的 例子 演示 了 PostGIS 的 功能 。 


上 述 内 容 仅仅 是 PostGIS 功 能 的 冰山 一 角 ， 
PostGIS 的 功能 远 远 不 止 这 些 ， 值 得 用 几 本 书 去 专 
门 讲 ， 这 里 不 妨 先 管 中 坷 鹏 ，PostGIS 多 姿 多 彩 的 
应 用 和 功能 还 有 符 大 家 去 发 掘 。 














